系统 讲解 数据 挖掘 机 器 学 习 工 具 Weka 
经 典 的 开源 挖掘 工具 、 开 放 的 Java 环 境 
初学 者 的 入 门 首 选 、 研 究 者 的 钻研 利器 
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内 容 简 介 


本 书 借助 代表 当今 数据 挖掘 和 机 器 学 习 最 高 水 平 的 著名 开源 软件 Weka， 通 过 大 量 的 实践 操作 ， 使 读 
者 了 解 并 掌握 数据 挖掘 和 机 器 学 习 的 相关 技能 ， 拉 近 理论 与 实践 的 距离 。 全 书 共 分 9 章 ， 主 要 内 容 包 括 
Weka 介绍 、 探 索 者 界面 、 知 识 流 界面 、 实 验 者 界面 、 命 令 行 界面 、Weka 高 级 应 用 、Weka API、 学 习 方 
案 源 代 码 分 析 和 机 器 学 习 实 战 。 

本 书 系统 讲解 Weka 3.7.13 的 操作 、 理 论 和 应 用 ， 内 容 全 面 、 实 例 丰 富 、 可 操作 性 强 ， 做 到 理论 与 实 
践 的 统一 。 本 书 适 合 数据 挖掘 和 机 器 学 习 相 关 人 员 作 为 技术 参考 书 使 用 ， 也 适合 用 作 计 算 机 专业 高 年 级 
本 科 生 和 研究 生 的 教材 或 教学 参考 用 书 。 
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再 版 前 言 


自 本 书 第 一 版 出 版 到 现在 已 经 过 去 近 两 年 。 这 段 时 间 内 ， 数 据 挖掘 和 机 器 学 习 领 域 快 
速 发 展 ， 投 入 到 相关 领域 研究 的 人 员 也 越 来 越 多 ，Weka 爱好 者 队伍 也 随 之 逐年 发 展 壮 
大 ，Weka 学 习 讨 论 群 所 讨论 内 容 的 技术 含量 也 日 渐 丰 富 。 

第 二 版 的 修订 工作 以 Weka 3.7.13 版 本 为 准 ， 为 此 ， 全 书 重新 截图 ， 按 照 Weka 新 版 本 
重新 修订 正文 内 容 。 此 次 再 版 修改 了 第 一 版 中 一 些 表述 不 清楚 的 陈述 、 前 后 不 一 致 的 术 
语 ， 还 新 增 了 以 下 内 容 : 第 1 章 1.3 节 新 增 无 法 连接 包 管理 器 的 解决 办 法 ， 第 2 章 2.7 节 
新 增 边界 可 视 化 工具 和 代价 /收益 分 析 可 视 化 及 相关 实验 内 容 ， 第 4 章 4.2 节 新 增 拆 分 评估 
器 可 视 化 参数 内 容 ， 新 增 完整 的 第 9 章 机 器 学 习 实战 ， 丰 富 了 Weka 实践 内 容 。 

修订 后 的 第 二 版 共 分 9 章 。 第 1 章 介 绍 Weka 的 历史 和 功能 、 数 据 挖掘 和 机 器 学 习 的 
基本 概念 、Weka 系统 安装 ， 以 及 示例 数据 集 ; 第 2 章 介 绍 探索 者 (Explorer) 界 面 的 使 用 ， 
主要 内 容 包 括 图 形 用 户 界面 、 预 处 理 、 分 类 、 聚 类 、 关 联 、 选 择 属性 ， 以 及 可 视 化 ; 第 3 
章 介 绍 知 识 流 (KnowledgeFlow) 界 面 ， 主 要 内 容 有 知识 流 介绍 、 知 识 流 组 件 、 使 用 知识 流 组 
件 ， 以 及 实践 教程 ， 第 4 章 介 绍 实验 者 (Experimenter) 界 面 ， 主 要 内 容 有 实验 者 界面 介绍 、 
标准 实验 、 远 程 实验 ， 以 及 实验 结果 分 析 ; 第 5 章 介绍 命令 行 界面 ， 主 要 内 容 有 命令 行 界 
面 介绍 、Weka 结构 、 命 令 行 选项 、 过 滤器 和 分 类 器 选项 ， 以 及 Weka 包 管 理 器 ， 第 6 章 介 
绍 一 些 Weka 的 高 级 应 用 ， 主 要 介绍 Weka 的 贝 叶 斯 网 络 、 神 经 网 络 、 文 本 分 类 和 时 间 序 
列 分 析 及 预测 ， 第 7 章 介 绍 Weka API， 说 明 使 用 Java 源 代码 来 实现 常见 数据 挖掘 任务 的 
基础 知识 ， 并 给 出 一 个 展示 如 何 进行 数据 挖掘 的 综合 示例 ; 第 8 章 通 过 对 NaiveBayes 学 习 
方案 的 源 代码 进行 分 析 ， 深 入 研究 Weka 学 习 方案 的 工作 原理 ， 为 开发 人 员 提 供 实 现 学 习 
算法 的 编码 基础 ， 第 9 章 介 绍 如 何 使 用 Weka 工具 挖掘 实际 的 大 型 数据 集 ， 以 精 选 的 两 个 
KDD 竞赛 数据 集 为 例 ， 使 读者 能 够 快速 进入 实际 的 案例 场景 ， 应 用 所 学 数据 挖掘 知识 来 面 
对 大 数据 的 挖掘 问题 ， 考 验 自 己 完成 难度 较 大 的 挖掘 项 目的 动手 能 力 。 

第 二 版 改动 的 内 容 较 多 ， 总 体 工作 量 很 大 ， 花 费 了 很 多 时 间 。 从 酝酿 第 二 版 内 容 开 
始 ， 至 其 杀青 ， 历 时 超过 一 年 。 作 者 的 感觉 是 : 比 编写 第 一 版 还 要 辛苦 些 。 且 不 说 Weka 
版 本 变动 导致 的 修改 ， 重 新 截图 、 重 新 梳理 文字 、 重 新 改写 API 文档 等 ， 费 时 费力 。 因 时 
间 变 化 引起 的 一 个 小 小 的 技术 变动 ， 就 让 人 费力 应 对 。 例 如 ， 怀 卡 托 大 学 后 来 不 再 提供 包 
管理 器 元 数据 ， 导 致 第 一 版 所 述 的 解决 办 法 不 再 有 效 ， 只 能 重新 寻找 解决 包 管理 器 无 法 连 
接 的 替代 方法 。 又 如 ， 新 版 本 Weka 的 NaiveBayes 源 代 码 有 一 些 变动 ， 作 者 不 得 不 修订 第 
8 章 的 内 容 以 适应 新 的 版 本 变化 。 再 如 ， 第 一 版 提供 的 网 络 链接 有 的 已 经 不 再 有 效 ， 出 版 
社 编辑 老师 测试 了 所 有 的 链接 ， 保 证 了 第 二 版 提供 的 网 络 链接 的 正确 性 。 当 然 ， 由 于 世界 
变化 太 快 ， 无 法 保证 在 一 两 年 后 这 些 链接 不 会 失效 ， 这 是 无 可 奈何 的 事 ， 作 者 只 能 保证 书 
中 叙述 的 方案 在 交 稿 时 可 行 。 

最 耗费 心力 的 应 该 是 第 9 章 的 编写 。 早 在 第 一 版 的 写作 中 ， 曾 经 就 有 编写 一 个 章节 专 
门 讲述 Weka 综合 应 用 案例 的 设想 ， 但 苦于 手 上 没有 合适 的 实验 对 象 。 理 想 的 应 用 案例 必 
须 满足 如 下 要 求 : 第 一 ， 难 度 适 中 。 不 能 太 简 单 ， 过 于 简单 的 小 儿科 案例 会 违背 编写 综合 
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应 用 的 初衷; 也 不 能 太 难 ， 如 果 应 用 的 技术 方案 太 偏 或 难以 理解 ， 就 达 不 到 锻炼 读者 实际 
动手 能 力 的 意义 。 第 二 ， 领 域 不 能 太 窗 ， 应 该 让 绝 大 多 数 人 都 能 理解 。 第 三 ， 运 算 量 不 能 
太 大 ， 应 该 满足 普通 计算 机 能 够 处 理 的 要 求 。 这 就 限制 了 目标 数据 集 文件 大 小 为 数 十 兆 字 
节 至 数 吉 字 节 范围 以 内 ， 实 例 总 数 在 数 十 万 条 至 数 千 万 条 之 间 ， 一 台 计 算 机 能 够 在 两 周 左 
右 运行 完毕 。 作 者 花费 了 很 长 时 间 寻 找 满 足以 上 要 求 的 案例 ， 最 后 选中 KDD Cup 1999 和 
KDD Cup 2010 竞赛 数据 集 ， 前 者 共有 42 个 属性 ，10% 数 据 子 集 文件 的 大 小 为 45MB， 样 
本 数 为 494021， 完 整 的 数据 集 文件 大 小 为 743MB， 样 本 数 为 4898431; 后 者 有 两 个 数据 
集 ， 本 书 选中 的 是 较 大 的 数据 集 ， 共 有 21 个 属性 ， 训 练 数 据 集 文件 大 小 为 5.29GB， 样 本 
数 为 20012498。 认 真 的 读者 会 发 现 ， 完 成 这 两 个 案例 的 实验 将 会 很 辛苦 ， 花 费 的 精力 和 时 
间 会 远 超 预期 。 作 者 想象 出 这 么 一 个 画面 : 读者 按照 书 中 的 实验 方法 工作 至 深夜 ， 硬 盘 灯 
不 停 闪 烁 ，CPU 利用 率 一 直 高 居 95%， 读 者 担心 心爱 的 计算 机 会 突然 崩溃 但 仍然 坚持 ， 直 
至 最 终 胜 利 。 作 者 预先 恭喜 那些 能 够 独立 完成 实验 的 读者 ， 因 为 你 们 有 足够 的 能 力 和 毅力 
应 付 技术 挑战 ， 胜 任 要 求 极 高 的 挖掘 工作 。 

尽管 在 写作 中 付出 了 很 多 艰辛 的 劳动 ， 但 限于 作者 有 限 的 能 力 和 精力 ， 书 中 肯定 还 存 
在 一 些 缺 陷 ， 甚 至 错误 ， 敬 请 各 位 读者 批评 指正 。 作 者 感谢 修订 工作 的 贡献 者 ， 昆 明理 工 
大 学 计算 机 系 吴 霖 老师 审阅 了 本 书 第 9 章 内容 ， 提 出 了 很 多 建设 性 建议 ， 感 谢 吴 霖 老师 的 
贡献 。 昆 明理 工大 学 2014 级 研究 生 卫 明 同学 参与 了 第 1 章 和 第 2 章 的 修订 工作 ;光荣 与 
梦想 、 弦 月 、Brady、 海 、_ 末 瞳 . 夫 、 不 说 再 见 ! 等 网 友 对 第 一 版 提出 了 宝贵 的 建议 ， 作 
者 在 第 二 版 中 采纳 了 这 些 建 议 ， 感 谢 这 些 朋 友 的 贡献 。 第 9 章 参考 了 昆明 理工 大 学 2014 
届 计 算 机 系 吴 泽 恒 同学 本 科 毕 业 设 计 论文 的 部 分 内 容 ， 他 是 我 指导 过 的 最 优秀 的 学 生 ， 感 
谢 吴 泽 恒 同 学 。 感 谢 选择 本 书 为 高 校 教学 参考 书 的 教师 在 使 用 过 程 中 提出 的 反馈 意见 和 建 
议 ， 作 者 学 习 到 一 些 很 有 价值 的 思考 方式 。 再 次 感谢 清华 大 学 出 版 社 的 编辑 老师 在 出 版 方 
面 提出 的 建设 性 意见 和 给 予 的 无 私 帮助 ， 编 辑 老师 一 丝 不 苟 的 工作 态度 给 我 留 下 很 深 的 印 
象 。 感 谢 购买 本 书 的 朋友 ， 欢 迎 批评 指正 ， 你 们 的 批评 建议 都 会 受到 重视 ， 并 在 再 版 中 改 
进 。 和 希望 第 二 版 的 发 行 能 够 吸引 更 多 的 读者 和 反馈 建议 。 
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第 一 版 前 言 


当代 中 国 掀起 了 一 股 学 习 数 据 挖掘 和 机 器 学 习 的 热潮 ， 从 斯 坦 福 大 学 公开 课 “ 机 器 学 
习 课 程 ”， 到 龙 星 计划 的 “机 器 学 习 Machine Learming” 课 程 ， 再 到 加 州 理 工学 院 公 开课 
“机 器 学 习 与 数据 挖掘 ”课程 ， 参 加 这 些 网 络 课程 学 习 的 人 群 日 益 壮大 ， 数 据 挖 掘 和 机 器 
学 习 和 炙手可热 。 

数据 挖掘 是 数据 库 知 识 发 现 中 的 一 个 步骤 ， 它 从 大 量 数据 中 自动 提取 出 隐 含 的 、 过 去 
未 知 的 、 有 价值 的 潜在 信息 。 机 器 学 习 主 要 设计 和 分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 
算法 ， 这 类 算法 可 以 从 数据 中 自动 分 析 获 得 规律 ， 并 利用 规律 对 未 知 数据 进行 预测 。 数 据 
挖掘 和 机 器 学 习 这 两 个 领域 联系 密切 ， 数 据 挖掘 利用 机 器 学 习 提 供 的 技术 来 分 析 海 量 数 
据 ， 以 发 掘 数据 中 隐 含 的 有 用 信息 。 

数据 挖掘 和 机 器 学 习 这 两 个 密切 相关 的 领域 存在 一 个 特点 : 理论 很 强 而 实践 很 弱 。 众 
所 周知 ， 理 论 和 实践 是 研究 者 的 左 腿 和 右 腿 ， 缺 了 一 条 腿 的 研究 者 肯定 难以 前 行 。 有 的 技 
术 人 员 花 了 若干 年 时 间 进 行 研究 ， 虽 然 了 解 甚至 熟悉 了 很 多 公式 和 算法 ， 但 仍然 难以 真正 
去 面 对 一 个 实际 挖掘 问题 并 很 好 地 解决 手 上 的 技术 难题 ， 其 根本 原因 就 是 缺乏 实践 。 

本 书 就 是 为 了 试图 解决 数据 挖掘 和 机 器 学 习 的 实践 问题 而 编写 的 。 本 书 依 托 新 西 兰 怀 
卡 托 大 学 采用 Java 语言 开发 的 著名 开源 软件 Weka， 该 系统 自 1993 年 开始 由 新 西 兰 政府 资 
助 ， 至 今 已 经 历 了 20 多 年 的 发 展 ， 功 能 已 经 十 分 强大 和 成 熟 。Weka 集合 了 大 量 的 机 器 学 
习 和 相关 技术 ， 受 领域 发 展 和 用 户 需 求 所 推动 ， 代 表 了 当今 数据 挖掘 和 机 器 学 习 领 域 的 最 
高 水 平 。 因 此 ， 研 究 Weka 能 帮助 研究 者 从 实践 去 验证 所 学 的 理论 ， 显 然 有 很 好 的 理论 意 
义 及 实践 意义 。 

本 书 共 分 8 章 。 第 1 章 介 绍 Weka 的 历史 和 功能 、 数 据 挖掘 和 机 器 学 习 的 基本 概念 、 
Weka 系统 安装 ， 以 及 示例 数据 集 ; 第 2 章 介 绍 Explorer 界面 的 使 用 ， 主 要 内 容 包括 图 形 
用 户 界面 、 预 处 理 、 分 类 、 聚 类 、 关 联 、 选 择 属性 ， 以 及 可 视 化 ; 第 3 章 介绍 
KnowledgeFlow 界面 ， 主 要 内 容 有 知识 流 介绍 、 知 识 流 组 件 、 使 用 知识 流 组 件 ， 以 及 实践 
教程 ， 第 4 章 介 绍 Experimenter 界面 ， 主 要 内 容 有 Experimenter 界面 介绍 、 标 准 实验 、 远 
程 实验 ， 以 及 实验 结果 分 析 ; 第 5 章 介 绍 命令 行 界面 ， 主 要 内 容 有 命令 行 界面 介绍 、Weka 
结构 、 命 令 行 选项 、 过 滤器 和 分 类 器 选项 ， 以 及 Weka 包 管 理 器 ; 第 6 章 介 绍 一 些 Weka 
的 高 级 应 用 ， 主 要 介绍 Weka 的 贝 叶 斯 网 络 、 神 经 网 络 、 文 本 分 类 和 时 间 序 列 分 析 及 预 
测 ， 第 7 章 介绍 Weka API， 说 明 使 用 Java 源 代码 来 实现 常见 数据 挖掘 任务 的 基础 知识 ， 
并 给 出 一 个 展示 如 何 进行 数据 挖掘 的 综合 示例 ; 第 8 章 通过 对 一 个 学 习 方 案 的 源 代码 进行 
分 析 ， 深 入 研究 Weka 学 习 方案 的 工作 原理 ， 为 开发 人 员 提 供 编写 学 习 算法 的 技术 基础 。 

在 阅读 大 量 相关 文献 的 过 程 中 ， 作 者 深 深 为 国外 前 非 们 的 理论 功底 和 实践 技能 所 折 
服 ， 那 些 巨 人 们 站 在 高 处 ， 使 人 难以 望 其 项 背 。 虽 然 得 益 于 诸如 网 易 公 开课 和 龙 星 计划 等 
项 目 ， 我 们 有 机 会 和 全 世界 站 在 同一 个 数量 级 的 知识 起 跑 线 上 ， 但是， 这 并 不 意味 着 能 在 
将 来 的 竞争 中 占据 优势 ， 正 如 孙中山 先生 所 说 “革命 尚未 成 功 ， 同 志 仍 须 努 力 ”， 让 我 们 
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一 起 共勉 。 

在 本 书 的 编写 过 程 中 ， 作 者 力求 精益 求 精 ， 但 限于 作者 的 知识 和 能 力 ， 且 很 多 材料 都 
难以 获取 ， 考 证 和 去 伪 存 真是 一 件 时 间 开销 非常 大 和 异常 困难 的 工作 ， 因 此 书 中 肯定 会 有 
遗漏 及 不 妥 之 处 ， 敬 请 广大 读者 批评 指正 。 

作者 专门 为 本 书 设置 读者 QQ 群 ， 群 号 245295017， 欢 迎 读 者 加 群 ， 下 载 和 探讨 书 中 
源 代码 ， 反 写 读书 心得 ， 进 行 技 术 交 流 等 。 

本 书 承蒙 很 多 朋友 、 同 事 的 帮助 才 得 以 成 文 。 特 别 感谢 Weka 开发 组 的 全 体 人 员 ， 他 
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Weka 介绍 


Weka 是 新 西 兰 怀 卡 托 大 学 用 Java 开发 的 数据 挖 握 著名 开源 软件 ， 该 
系统 自 1993 年 开始 由 新 西 兰 政府 资助 ， 至 今 已 经 历 了 20 多 年 的 发 展 ， 其 
能 已 经 十 分 强大 和 成 熟 。Weka 集合 了 大 量 的 机 器 学 习 和 相关 技术 ， 

领域 发 展 和 用 户 需求 所 推动 ， 代 表 了 当今 数据 挖 气 和 机 器 学 习 领域 的 最 
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数据 挖 所 与 机 器 学 习 
Wl 上 


1.1 Weka 简介 


Weka 是 怀 卡 托 智能 分 析 环 境 (Waikato Environment for Knowledge Analysis) 的 英文 字 首 
缩写 ， 官 方 网 址 为 http://www.cs.waikato.ac.nz/ml/weka， 在 该 网 站 可 以 免费 下 载 可 运行 软件 
和 源 代码 ， 还 可 以 获得 说 明文 档 、 常 见 问 题解 答 、 数 据 集 和 其 他 文献 等 资源 。Weka 的 

音 类 似 新 西 兰 本 土 一 种 不 会 飞 的 鸟 ， 如 图 1.1 所 示 ， 因 此 Weka 系统 使 用 该 鸟 作为 其 
徽标 。 


1.1 Weka( 或 woodhen) 鸟 ? 


Weka 是 一 种 使 用 Java 语言 编写 的 数据 挖掘 机 器 学 习 软 件 ， 是 GNU 协议 下 分 发 的 开源 
软件 。Weka 主要 用 于 科研 、 教 育 和 应 用 领域 ， 还 作为 Ian H. Witten、Eibe Frank 和 Mark A. 
Hall 三 人 合 著 的 著名 书籍 Data Mining: Practical Machine Learning Tools and Techniques, Third 
Edition3 的 实践 方面 的 重要 补充 ， 该 书 于 2011 年 由 Elsevier 出 版 。 

Weka 是 一 套 完整 的 数据 处 理工 具 、 学 习 算 法 和 评价 方法 ， 包 含 数据 可 视 化 的 图 形 用 
户 界面 ， 同 时 该 环境 还 可 以 比较 和 评估 不 同 的 学 习 算法 的 性 能 。 
国内 外 很 多 著名 大 学 都 采用 Weka 作为 数据 挖掘 和 机 器 学 习 课程 的 实践 工具 。Weka 还 
有 另外 一 个 名 字 叫 作 Pentaho Data Mining Community Edition(Pentaho 数据 挖掘 社区 版 )， 此 
外 ，Pentaho 的 网 站 (http://weka.pentaho.comy) 还 维护 一 个 被 称 为 Pentaho Data Mining 
Enterprise Edition(Pentaho 数据 挖掘 企业 版 ) 的 版 本 ， 它 主要 提供 技术 支持 和 管理 升级 。 另 
用 Java 编写 的 著名 数据 挖掘 工具 RapidMiner 通过 Weka Extension(Weka 扩展 ) 支 持 
Weka， 以 充分 利用 Weka 的 “ 约 100 个 额外 的 建 模 方案 ， 其 中 包括 额外 的 决策 树 、 规 则 学 
习 器 和 回归 估计 器 ”， 参 见 网 址 https://marketplace.rapidminer.com/UpdateServer/faces/ 
product_details.xhtml?productId=rmx weka。 

有 很 多 软件 项 目 直接 或 间接 使 用 Weka， 包 括 能 够 处 理 ARFF 格式 的 数据 ， 或 者 从 其 他 编 
程 环境 中 访问 Weka 的 功能 ， 有 具体 可 参见 网 址 http://www.cs.waikato.ac.nz/ml/weka/related.html 


四 来 源 : Weka a tool for exploratory_data_mining ppt， http://ncu.dl.sourceforge.net/project/weka/documentation/ 
Initial%20upload%20and%20presentations/Weka_a_tool_ for exploratory_data_mining.ppt。 

@ 中 译 版 书 名 为 “数据 挖掘 :实用 机 器 学 习 工 具 与 技术 ( 原 书 第 3 版 )”， 于 2014 年 5 月 由 机 械 工业 出 版 
社 出 版 。 


和 WekaWiki(http:/weka.wikispaces.com/Related+Projects)。 另 外 ，Weka 还 提供 统计 编程 语 
言 R 以 及 Python 的 接口 ， 以 及 对 分 布 式 计算 框架 Hadoop、Spark 的 支持 ， 这 使 得 Weka 更 
有 具 实 用 价值 。 


1.1.1 Weka 历史 


怀 卡 托 机 器 学 习 团 队 宣称 : 我 们 团队 的 总 体 目标 是 要 建立 最 先进 的 软件 开发 机 器 学 习 
技术 ， 并 将 其 应 用 于 解决 现实 世界 的 数据 挖掘 问题 。 团 队 具 体 目标 是 : 使 机 器 学 习 技术 容 
易 获 得 ， 并 将 其 应 用 到 解决 新 西 兰 工业 的 重大 实际 问题 中 ， 开 发 新 的 机 器 学 习 算 法 并 推 向 
世界 ， 为 该 领域 的 理论 框架 做 出 贡献 。 

1992 年 年 末 ， 新 西 兰 怀 卡 托 大 学 计算 机 科学 系 的 Ian H. Witten 博士 申请 基金 ，1993 
年 获 新 西 兰 政府 资助 ， 并 于 同年 开发 出 接口 和 基础 架构 。 次 年 发 布 了 第 一 个 Weka 的 内 部 
pe 两 年 后 ， 在 1996 年 10 月 ， 第 一 个 公开 版 本 (Weka 2.1) 发 布 。Weka 早期 版 本 主要 采 

C 语言 编写 ，1997 年 年 初 ， 团 队 决 定 使 用 Java 重新 改写 ， 并 在 1999 年 中 期 发 布 纯 Java 
四 Weka 3 版 本 。 选 定 Java 来 实现 Ian H. Witten 著作 Data Mining 的 配套 机 器 学 习 技 术 是 
有 充分 理由 的 ， 作 为 一 个 著名 的 面向 对 象 的 编程 语言 ，Java 允许 用 一 个 统一 的 接口 来 进行 
学 习 方 案 和 方法 的 预 处 理 和 后 处 理 。 决 定 使 用 Java 来 蔡 代 C++ 或 其 他 面向 对 象 的 语言 ， 是 
因为 Java 编写 的 程序 可 以 运行 在 绝 大 部 分 计算 机 上 ， 而 无 须 重新 编译 ， 更 不 需要 修改 源 代 
码 。 已 经 测试 过 的 平台 包括 Linux、Windows 和 Macintosh 操作 系统 ， 甚 至 包括 PDA。 最 
后 的 可 执行 程序 复制 过 来 即 可 运行 ， 完 全 绿色 ， 不 要 求 复 杂 安 装 。 当 然 ，Java 也 有 其 缺 
点 ， 最 大 的 问题 是 它 在 速度 上 有 缺陷， 执行 一 个 Java 程序 比 对 应 的 C 语言 程序 要 慢 上 好 
几 倍 。 综 合 来 看 ， 对 于 Weka 来 说 ，Java“ 一 次 编译 ， 到 处 运行 ”的 吸引 力 远 远 超出 对 性 能 
的 渴望 。 

截止 到 2016 年 2 月 ，Weka 最 新 的 版 本 是 3.7.13， 这 是 2015 年 9 月 11 日 发 布 的 稳定 
版 ， 本 书 第 二 版 基于 该 版 本 。 


1.1.2” Weka 功能 简介 


Weka 系统 汇集 了 最 前 沿 的 机 器 学 习 算法 和 数据 预 处 理工 具 ， 以 便 用 户 能 够 快速 灵活 
地 将 已 有 的 成 熟 处 理 方法 应 用 于 新 的 数据 集 。 它 为 数据 挖掘 的 整个 过 程 提供 全 面 的 支持 ， 
包括 准备 输入 数据 、 统 计 评 估 学 习 方 案 、 输 入 数据 和 学 习 效 果 的 可 视 化 。Weka 除了 提供 
大 量 学 习 算法 (学 习 方案 ) 之 外 ， 还 提供 了 适应 范围 很 广 的 预 处 理工 具 ， 用 户 通过 一 个 统一 
界面 操作 各 种 组 件 ， 比 较 不 同 的 学 习 算法 ， 找 出 能 够 解决 问题 的 最 有 效 的 方法 。 

Weka 系统 包括 处 理 标准 数据 挖掘 问题 的 所 有 方法 : 回归 、 分 类 、 聚 类 、 关 联 规则 以 
及 属性 选择 。 分 析 要 进行 处 理 的 数据 是 重要 的 一 个 环节 ，Weka 提供 了 很 多 用 于 数据 可 视 
化 和 预 处 理 的 工具 。 输 入 数据 可 以 有 两 种 形式 ， 第 一 种 是 通过 以 ARFF 格式 为 代表 的 文件 
进行 输入 ， 另 一 种 是 直接 读 取 数 据 库 表 。 

使 用 Weka 的 方式 主要 有 三 种 : 第 一 种 是 将 学 习 方 案 应 用 于 某 个 数据 集 ， 然 后 分 析 其 
输出 ， 从 而 更 多 地 了 解 这 些 数据 ; 第 二 种 是 使 用 已 经 学 习 到 的 模型 对 新 实例 进行 预测 ， 第 
三 种 是 使 用 多 种 学 习 方案 ， 然 后 根据 其 性 能 表现 选择 其 中 的 一 种 来 进行 预测 。 用 户 使 用 交 
互 式 界面 菜单 选择 一 种 学 习 方案 ， 大 部 分 学 习 方案 都 带 有 可 调节 的 参数 ， 用 户 可 通过 属性 
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列表 或 对 象 编 辑 器 修改 参数 ， 然 后 通过 同一 个 评估 模块 对 学 习 方案 的 性 能 进行 评估 。 
Weka 主 界面 被 称 为 Weka GUI 选择 器 (Weka GUI Chooser)， 它 通过 右边 的 四 个 按钮 提 

供 四 种 主要 的 应 用 程序 供用 户 选择 ， 如 图 1.2 所 示 ， 单 击 按钮 即 可 进入 相应 的 图 形 用 户 
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1.2 Weka 主 界面 


其 中 ，Weka 系统 提供 的 最 容易 使 用 的 图 形 用 户 界面 称 为 探索 者 (Explorer)。 通 过 选择 
菜单 和 填写 表单 ， 可 以 调用 Weka 的 所 有 功能 。 例 如 ， 用 户 仅仅 单 击 几 个 按钮 ， 就 可 以 完 
成 从 ARFF 文件 中 读 取 数据 集 ， 然 后 建立 决策 树 模型 的 工作 。Weka 界面 十 分 友好 ， 能 适 
时 地 将 不 宣 用 的 功能 选项 设置 为 不 可 用 状态 ， 将 用 户 选项 设计 为 表格 方式 以 方便 填写 ; 当 
鼠标 移动 到 界面 工具 上 短暂 停留 时 ， 会 给 出 用 法 提示 ; 对 算法 都 给 出 较为 合理 的 默认 值 ， 
使 得 用 户 在 进行 配置 时 无 须 花费 太 多 精力 就 可 取得 较 好 的 效果 等 。 

虽然 探索 者 界面 使 用 很 方便 ， 但 它 存 在 一 个 缺陷 ， 即 要 求 将 所 需 数据 全 部 一 次 读 进 内 
存 ， 一 旦 用 户 打开 某 个 数据 集 ， 就 会 批量 读 取 全 部 数据 。 因 此 ， 这 种 批量 方式 仅 适 合 处 理 
中 小 规模 的 问题 。 而 知识 流 界 面 刚 好 能 够 弥补 这 一 缺陷 。 

知识 流 (KnowledgeFlow) 界 面 可 以 使 用 增 量 (分 批 ) 方 式 的 算法 来 处 理 大 型 数据 集 ， 用 户 
可 以 定制 处 理 数据 流 的 方式 和 顺序 。 知 识 流 界面 允许 用 户 在 屏幕 上 任意 拖 电 代表 学 习 算法 
和 数据 源 的 图 形 组 件 ， 并 以 一 定 的 方式 和 顺序 组 合 在 一 起 。 也 就 是 说 ， 按 照 一 定 顺 序 将 代 
表 数 据 源 、 预 处 理工 具 、 学 习 算 法 、 评 估 手 段 和 可 视 化 模块 的 各 组 件 组 合 在 一 起 ， 形 成 数 
据 流 。 如 果 用 户 选取 的 过 滤器 和 学 习 算法 具有 增 量 学 习 功 能 ， 那 就 可 以 实现 大 型 数据 集 的 
增 量 分 批 读 取 和 处 理 。 

实验 者 (ExperimenteD) 界 面 用 于 帮助 用 户 解答 实际 应 用 分 类 和 回归 技术 中 遇 到 的 一 个 基 
本 问题 : 对 于 一 个 已 知 问题 ， 哪 种 方法 及 参数 值 能 够 取得 最 佳 效 果 ? 通过 Weka 提供 的 实 
验 者 工作 环境 ， 用 户 可 以 比较 不 同 的 学 习 方案 。 尽 管 探索 者 界面 也 能 通过 交互 完成 这 样 的 
功能 ， 但 通过 实验 者 界面 ， 用 户 可 以 让 处 理 过 程 实现 自动 化 。 实 验 者 界面 更 加 容易 使 用 不 
同 参数 去 设置 分 类 器 和 过 滤器 ， 使 之 运行 在 一 组 数据 集中 ， 收 集 性 能 统计 数据 ， 实 现 重要 
的 测试 实验 。 

简单 命令 行 (Simple CLD 界 面 是 为 不 提供 自己 的 命令 行 界面 的 操作 系统 提供 的 ， 该 界面 
用 于 和 用 户 进行 交互 ， 可 以 直接 执行 Weka 命令 。 


1.2 基本 概念 


上 节 简 要 介绍 了 Weka， 读 者 也 许 迫 不 及 待 地 想 进 一 步 深 入 了 解 并 使 用 Weka 来 完成 数 
据 挖掘 工作 。 但 是 ， 在 此 之 前 ， 有 必要 先 了 解数 据 挖 掘 和 机 器 学 习 的 一 些 基本 概念 ， 为 进 
一 步 的 学 习 打 下 基础 。 


1.2.1 数据 挖掘 和 机 器 学 习 


数据 挖掘 和 机 器 学 习 这 两 项 技术 的 关系 非常 密切 。 机 器 学 习 方 法 构成 数据 挖掘 的 核 
心 ， 绝 大 多 数 数据 挖掘 技术 都 来 自 机 器 学 习 领 域 ， 数 据 挖掘 又 向 机 器 学 习 提出 新 的 要 求 和 
任务 。 

数据 挖掘 就 是 在 数据 中 寻找 模式 的 过 程 。 这 个 寻找 过 程 必须 是 自动 的 或 半自动 的 ， 并 
且 数据 总 量 应 该 具有 相当 大 的 规模 ， 从 中 发 现 的 模式 必须 有 意义 并 能 产生 一 定 的 效益 。 通 
常 ， 数 据 挖 掘 需要 分 析 数 据 库 中 的 数据 来 解决 问题 ， 如 客户 忠诚 度 分 析 、 市 场 购 物 篮 分 
析 等 。 

当今 已 进入 海量 数据 时 代 。 例 如 ， 全 世界 已 经 有 约 一 万 亿 个 网 页 ， 沃尔玛 仅 一 个 小 时 
就 有 一 百 万 的 交易 量 ， 其 数据 库 里 的 数据 已 有 2.5 拍 ( 即 2.5x102 字 节 ) 的 信息 ， 等 等 。 

这 些 海量 数据 不 可 能 采用 手工 方式 进行 处 理 ， 因 此 ， 迫 切 要 求 能 进行 数据 分 析 的 自动 
化 方法 ， 这 些 都 由 机 器 学 习 提 供 。 

机 器 学 习 定义 为 能 够 自动 寻找 数据 中 的 模式 的 一 套 方法 ， 然 后 ， 使 用 所 发 现 的 模式 来 
预测 将 来 的 数据 ， 或 者 在 各 种 不 确定 的 条 件 下 进行 决策 。 

机 器 学 习 分 为 两 种 主要 类 型 。 第 一 种 机 器 学 习 类 型 称 为 有 监督 学 习 ， 或 称 为 预测 学 
习 ， 其 目标 是 在 给 定 一 系列 输入 /输出 实例 所 构成 的 数据 集 的 条 件 下 ， 学 习 输 入 x 到 输出 y 
的 映射 关系 。 这 里 的 数据 集 称 为 训练 集 ， 实 例 的 个 数 称 为 训练 样本 数 。 第 二 种 机 器 学 习 类 
型 称 为 无 监督 学 习 ， 或 称 为 描述 学 习 ， 其 目标 是 在 给 定 一 系列 仅 由 输入 实例 构成 的 数据 集 
的 条 件 下 ， 发 现 数据 中 的 有 趣 模式 。 无 监督 学 习 有 时 候 也 称 为 知识 发 现 ， 这 类 问题 并 没有 
明确 定义 ， 因 为 我 们 不 知道 需要 寻找 什么 样 的 模式 ， 也 没有 明显 的 误差 度量 可 供 使 用 。 而 
对 于 给 定 的 x， 有 监督 学 习 可 以 对 所 观察 到 的 值 与 预测 的 值 进行 比较 ， 得 到 明确 的 误差 值 。 


1.2.2 ”数据 和 数据 集 


根据 应 用 的 不 同 ， 数 据 挖掘 的 对 象 可 以 是 各 种 各 样 的 数据 ， 这 些 数据 可 以 以 各 种 形式 
进行 存储 ， 如 数据 库 、 数 据 仓库 、 数 据 文件 、 流 数据 、 多 媒体 、 网 页 等 。 既 可 以 集中 存储 
在 数据 存储 库 中 ， 也 可 以 分 布 在 世界 各 地 的 网 络 服务 器 上 。 

通常 将 数据 集 视 为 待 处 理 的 数据 对 象 的 集合 。 由 于 历史 原因 ， 数 据 对 象 有 多 个 别名 ， 
如 记录 、 点 、 行 、 向 量 、 案 例 、 样 本 、 观 测 等 。 数 据 对 象 也 是 对 象 ， 因 此 ， 可 以 用 刻画 对 
象 基 本 特征 的 属性 来 进行 描述 。 属 性 也 有 多 个 别名 ， 如 变量 、 特 征 、 字 段 、 维 、 列 等 。 

数据 集 可 以 类 似 于 一 个 二 维 的 电子 表格 或 数据 库 表 。 在 最 简单 的 情形 下 ， 每 个 训练 输 
入 天 是 一 个 N 维 的 数值 向 量 ， 表 示 特 定 事物 的 一 些 特征 ， 如 人 的 身高 、 体 重 。 这 些 特征 也 
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可 以 称 为 属性 。 有 时 xi 也 可 以 是 复杂 结构 的 对 象 ， 如 图 像 、 电 子 邮件 、 时 间 序 列 、 语 
句 等 。 

属性 可 以 分 为 四 种 类 型 : 标 称 (nominal)、 序 数 (ordinal)、 区 间 (intervalj)) 和 比率 (ratio)， 
其 中 ， 标 称 属 性 的 值 仅 仅 是 不 同 的 名 称 ， 即 标 称 值 仅 提供 区 分 对 象 的 足够 信息 ， 如 性 别 
( 男 、 女 )、 衣 服 颜色 ( 红 、 黄 、 蓝 )、 天 气 ( 阴 、 晴 、 雨 、 多 云 ) 等 ;序数 属性 的 值 可 以 提供 确 
定 对 象 的 顺序 的 足够 信息 ， 如 成 绩 等 级 ( 优 、 良 、 中 、 及 格 、 不 及 格 )、 职 称 (初级 、 中 级 、 
高 级 )、 学 生 (本 科 生 、 硕 士 生 、 博 士 生 ) 等 ， 区 间 属 性 的 值 之 间 的 差 是 有 意义 的 ， 即 存在 测 
量 单 位 ， 如 温度 、 日 历 日 期 等 ， 比 率 属性 的 值 之 间 的 差 和 比值 都 是 有 意义 的 ， 如 绝对 温 
度 、 年 龄 、 长 度 、 成 绩 分 数 等 。 

标 称 属 性 和 序数 属性 统称 为 分 类 的 (categorical) 或 定性 的 (qualitative) 属 性 ， 它 们 的 取 值 
为 集合 ， 即 使 使 用 数值 来 表示 ， 也 不 具备 数 的 大 部 分 性 质 ， 因 此 ， 应 该 像 对 待 符号 一 样 对 
待 ， 区 间 属 性 和 比率 属性 统称 为 定量 的 (quantitative) 或 数值 的 (numeric) 属 性 ， 定 量 属性 采用 
数值 来 表示 ， 具 备 数 的 大 部 分 性 质 ， 可 以 使 用 整数 值 或 连续 实数 值 来 表示 。 

大 部 分 数据 集 都 以 数据 库 表 和 数据 文件 的 形式 存在 ，Weka 支持 读 取 数 据 库 表 和 多 种 
格式 的 数据 文件 ， 其 中 ， 使 用 最 多 的 是 一 种 称 为 ARFF 格式 的 文件 。 


1.2.3 ARFF 格式 


ARFF 是 一 种 Weka 专用 的 文件 格式 ， 由 Andrew Donkin 创立 ， 有 传言 说 ARFF 代表 
Andrew's Ridiculous File Format( 安 德 鲁 的 荒唐 文件 格式 )， 但 在 Weka 的 正式 文档 中 明确 说 
明 ARFF 代表 Attribute-Relation File Format( 属 性 一 关系 文件 格式 )。 该 文件 是 ASCII 文本 文 
件 ， 描 述 共 享 一 组 属性 结构 的 实例 列表 ， 由 独立 且 无 序 的 实例 组 成 ， 是 Weka 表示 数据 集 
的 标准 方法 ，ARFF 不 涉及 实例 之 间 的 关系 。 

在 Weka 安装 目录 下 的 data 子 目录 中 ， 可 以 找到 名 称 为 weather.numeric.arff 的 天 气 数 
据 文件 ， 其 内 容 如 程序 清单 1.1 所 示 。 数 据 集 是 实例 的 集合 ， 每 个 实例 包含 一 定 的 属性 ， 
属性 的 数据 类 型 包括 如 下 几 类 : 标 称 型 nominal)， 只 能 取 预 定义 值 列表 中 的 一 个 ， 数 值 型 
(numeric)， 只 能 是 实数 或 整数 ， 字 符 串 型 (string)， 这 是 一 个 由 双 引 号 引用 的 任意 长 度 的 字 
符 列表 ; 另外 还 有 日 期 型 (date) 和 关系 型 (relational)。ARFF 文件 就 是 实例 类 型 的 外 部 表 
示 ， 其 中 包括 一 个 标题 头 (header)， 以 描述 属性 的 类 型 ， 还 包含 一 个 用 逗号 分 隔 的 列表 所 表 
示 的 数据 部 分 (data)。 


程序 清单 1.1 天 气 数据 的 ARFF 文件 


$$ This is a toy example, the UCI weather dataset. 
$$ Any relation to real weather is purely coincidental. 


@relation weather 


@attribute outlook {sunny, overcast, rainy} 
Q@attribute temperature real 

@attribute humidity real 

@attribute windy {TRUE, FALSE} 

@attribute Play {yes, no} 


@qata 

sunny, 85, 85, FALSE, no 

sunny, 80, 90, TRUE, no 

overcast, 83, 86, FALSE, yes 

rainy, 70, 96, FALSE, yes 

rainy, 68, 80, FALSE, yes 

rainy, 65, 70, TRUE, no 

overcast, 64, 65, TRUE, yes 

sunny, 72, 95, FALSE, no 

sunny, 69, 70, FALSE, yes 

rainy, 75, 80, FALSE, yes 

sunny, 75, 70, TRUE, yes 

overcast, 72, 90, TRUE, yes 

overcast, 81, 75, FALSE, yes 

rainy, 71, 91, TRUE, no 

上 述 代码 中 ， 以 百 分 号 “%” 开 始 的 行 称 为 注释 行 。 与 计算 机 编程 语言 类 似 ， 最 前 面 
的 注释 行 应 该 写 明 数据 集 的 来 源 、 用 途 和 含义 。 

@relation 行 定义 内 部 数据 集 的 名 称 weather， 名 称 应 简洁 明了 ， 尽 可 能 容易 理解 。relation 
也 称 为 关系 。 

(@attribute outlook {sunny, overcast, rainy} 行 定义 名 称 为 outlook 的 标 称 型 属性 ， 有 三 个 
取 值 : sunny、overcast 和 rainy。 按 照 同样 的 方式 ，@attribute windy {TRUE, FALSE} 行 和 
@attribute play {yes, no} 行 分 别 定义 windy 和 play 两 个 标 称 型 属性 。 要 注意 的 是 ， 最 后 一 
个 属性 默认 为 用 于 预测 的 类 别 变量 ， 或 称 为 目标 属性 。 本 例 中 ， 类 别 变量 为 标 称 型 属性 
play， 它 只 能 取 两 个 值 之 一 ， 使 得 天 气 问 题 成 为 二 元 (binary) 的 分 类 问题 。 

@attribute temperature real 行 定义 名 称 为 temperature 的 数值 型 属性 ，@attribute 
humidity real 行 定义 名 称 为 humidity 的 数值 型 属性 。 这 两 个 属性 都 是 实数 型 。 

@data 标志 后 的 各 行 构成 数据 集 。 每 行为 一 个 实例 样本 ， 由 采用 逗号 分 隔 的 值 组 成 ， 
顺序 与 由 @attribute 所 定义 属性 的 顺序 一 致 。 

本 例 没有 使 用 字符 串 类 型 和 日 期 类 型 ， 在 将 来 的 学 习 中 会 遇 到 这 两 种 类 型 。 


1.2.4” 预 处 理 


数据 挖掘 是 在 大 量 的 、 潜 在 有 用 的 数据 中 挖掘 出 有 用 模式 的 过 程 。 因 此 ， 源 数据 的 质 
量 直接 影响 到 挖掘 的 效果 ， 高 质量 的 数据 是 进行 有 效 挖 掘 的 前 提 。 但 是 ， 由 于 数据 挖掘 所 
使 用 的 数据 往往 不 是 专门 为 挖掘 准备 的 ， 期 望 数 据 质量 完美 并 不 现实 ， 人 的 错误 、 测 量 设 
备 的 限制 以 及 数据 收集 过 程 的 漏洞 都 可 能 导致 一 些 问题 ， 如 缺失 值 (由 机 械 原因 或 人 为 原因 
造成 的 数据 缺失 ) 和 高 群 值 (数值 与 其 他 数值 相 比 差异 较 大 )。 

由 于 无 法 在 数据 的 源头 控制 质量 ， 数 据 挖掘 只 能 通过 以 下 两 个 方面 设法 避免 数据 质量 
问题 ，Q 数 据 质量 问题 的 检测 与 纠正 ，@ 使 用 能 容忍 低 质量 数据 的 算法 。 第 一 种 方式 在 数 
据 挖掘 前 检测 并 纠正 一 些 质量 问题 ， 这 个 过 程 称 为 数据 预 处 理 ， 第 二 种 方式 需要 提高 算法 
的 健壮 性 。 

数据 预 处 理 是 数据 挖掘 的 重要 步骤 ， 数 据 挖掘 者 的 大 部 分 时 间 和 精力 都 要 花 在 预 处 理 
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阶段 。Weka 专门 提供 若干 过 滤器 进行 预 处 理 ， 还 在 探索 者 界面 中 提供 Select attributes( 选 
择 属性 ) 标 签 页 专门 处 理 属 性 的 自动 选择 问题 。 数 据 预 处 理 涉 及 的 策略 和 技术 非常 广泛 ， 主 
要 包括 如 下 技术 。 

1. 聚集 

聚集 (aggregation) 就 是 将 两 个 或 多 个 对 象 合并 为 单个 对 象 。 一 般 来 说 ， 定 量 数据 通常 通 
过 求 和 或 求 平均 值 的 方式 进行 聚集 ， 定 性 数据 通常 通过 汇总 进行 聚集 。 聚 集 通过 数据 归 约 
来 减少 数据 量 ， 所 导致 的 较 小 数据 集 只 需要 较 少 内 存 和 处 理 时 间 的 开销 ， 因 此 ， 可 以 使 用 
开销 更 大 的 数据 挖 气 算 法 。 另 外 ， 聚 集 使 用 高 层 数据 视图 ， 起 到 了 范围 或 度量 转换 的 作 
用 。 虽 然 站 在 很 高 的 角度 去 检视 问题 容易 避免 “只 见 树木 ， 不 见 森林 ”的 浆 端 ， 但 也 可 能 
导致 有 趣 细节 的 丢失 。 


2. 抽样 


如 果 处 理 全 部 数据 的 开销 太 大 ， 数 据 预 处 理 可 以 使 用 抽样 ， 只 选择 数据 对 象 的 子 集 进 
行 分 析 。 使 用 抽样 可 以 压缩 数据 量 ， 因 此 ， 能 够 使 用 效果 更 好 但 开销 较 大 的 数据 挖掘 算 
法 。 由 于 抽样 是 一 个 统计 过 程 ， 好 的 抽样 方案 就 是 确保 以 很 高 的 概率 得 到 有 代表 性 的 样 
本 ， 即 样本 近似 地 具有 与 原 数据 相同 的 性 质 。 

抽样 方式 有 多 种 ， 最 简单 的 抽样 是 选取 每 一 个 数据 行 作为 样本 的 概率 都 相同 ， 这 称 为 

简单 随机 抽样 ， 又 分 为 有 放 回 抽样 和 无 放 回 抽样 两 种 形式 ， 前 者 是 从 N 个 数据 行 中 以 概率 
UN 分 别 随机 抽取 出 n 个 数据 行 ， 构 成 样本 子 集 后 者 与 有 放 回 抽样 的 过 程 相 似 ， 但 每 次 
都 要 删除 原 数据 集中 已 经 抽取 出 来 的 数据 行 。 显 然 ， 有 放 回 抽样 得 到 的 样本 子 集 有 可 能 重 
复 抽 取 到 相同 的 数据 行 。 
当 整 个 数据 集 由 差异 较 大 的 数据 行 构成 时 ， 简 单 随机 抽样 可 能 无 法 抽取 到 不 太 频 繁 出 
现 的 数据 行 ， 这 会 导致 得 到 的 样本 不 具 代 表 性 。 分 层 抽样 (stratified sampling) 尽 量 利用 事先 
掌握 的 信息 ， 充 分 考虑 保持 样本 结构 和 总 体 结构 的 一 致 性 以 提高 样本 的 代表 性 。 其 步 又 
是 ， 先 将 数据 集 按 某 种 特征 分 为 若干 不 相交 的 “ 层 ”， 然 后 再 从 每 一 层 中 进行 简单 随机 抽 
样 ， 从 而 得 到 具有 代表 性 的 抽样 数据 子 集 。 

3. 维度 归 约 

维度 是 指数 据 集中 属性 的 数目 。 维 度 归 约 (dimension reduction) 是 指 创建 新 属性 ， 通 过 
数据 编码 或 数据 变换 ， 将 一 些 旧 属性 合并 在 一 起 以 降低 数据 集 的 维度 。 

维度 归 约 可 以 删除 不 相关 的 属性 并 降低 噪声 ， 维 度 降低 会 使 许多 数据 挖掘 的 算法 变 得 
更 好 ， 还 能 消除 由 维 灾难 带 来 的 负面 影响 。 维 灾难 是 指 ， 随 着 维度 的 增加 ， 数 据 在 它 所 占 
的 空间 越 来 越 稀疏 ， 对 于 分 类 问题 ， 这 意味 着 可 能 没有 足够 的 数据 对 象 来 创建 模型 ， 对 于 
聚 类 问题 ， 点 之 间 的 密度 和 距离 的 定义 失去 意义 。 因 此 ， 对 于 高 维 数据 ， 许 多 分 类 和 聚 类 
等 学 习 算 法 的 效果 都 不 理想 。 维 度 归 约 使 模型 的 属性 更 少 ， 因 而 可 以 产生 更 容易 理解 的 
模型 。 

4. 属性 选择 


除 维度 归 约 外 ， 降 低 维度 的 另 一 种 方法 是 只 使 用 属性 的 一 个 子 集 。 表 面 看 来 这 种 方法 
似乎 可 能 丢失 信息 ， 但 在 很 多 情况 下 ， 数 据 集 中 存在 元 余 或 不 相关 的 属性 。 其 中 ， 元 余 属 


性 是 指 某 个 属性 包含 了 其 他 属性 中 的 部 分 或 全 部 信息 ， 不 相关 属性 是 指 对 于 手头 的 数据 挖 
掘 任务 几乎 完全 没有 用 处 的 信息 。 属 性 选择 是 指 从 数据 集中 选择 最 具 代 表 性 的 属性 子 集 ， 
删除 元 余 或 不 相关 的 属性 ， 从 而 提高 数据 处 理 的 效率 ， 使 模型 更 容易 理解 。 

最 简单 的 属性 选择 方法 是 使 用 常识 或 领域 知识 ， 以 消除 一 些 不 相关 或 元 余 属 性 。 但 
是 ， 选 择 最 佳 的 属性 子 集 通 常 需要 系统 的 方法 。 理 想 的 属性 选择 方法 是 : 将 全 部 可 能 的 属 
性 子 集 作为 数据 挖掘 学 习 算 法 的 输入 ， 然 后 选取 能 产生 最 好 结果 的 子 集 。 这 种 方法 反映 了 
对 最 终 使 用 的 数据 挖掘 算法 的 目的 和 偏爱 。 但 是 ， 由 于 n 个 属性 的 子 集 的 数量 多 达 2 个 ， 
大 部 分 情况 下 行 不 通 。 因 此 ， 需 要 考虑 三 种 标准 的 属性 选择 方法 : 嵌入 、 过 滤 和 包装 。 

嵌入 方法 (embedded approach) 将 属性 选择 作为 数据 挖掘 算法 的 一 部 分 。 在 挖掘 算法 运 
行 期 间 ， 算 法 本 身 决定 使 用 哪些 属性 以 及 忽略 哪些 属性 。 决 策 树 算法 通常 使 用 这 种 方法 。 

过 滤 方 法 (filter approach) 在 运行 数据 挖掘 算法 之 前 ， 使 用 独立 于 数据 挖掘 任务 的 方法 
进行 属性 选择 ， 即 先 过 滤 数 据 集 产 生 一 个 属性 子 集 。 

包装 方法 (wrapper approach) 将 学 习 算法 的 结果 作为 评价 准则 的 一 部 分 ， 使 用 类 似 于 前 
文 介绍 的 理想 算法 ， 但 通常 无 法 枚 举 出 全 部 可 能 的 子 集 以 找 出 最 佳 属性 子 集 。 

根据 属性 选择 过 程 是 否 需要 使 用 类 别 信息 ， 属 性 选择 可 分 为 有 监督 属性 选择 和 无 监督 
属性 选择 。 前 者 通过 度量 类 别 信息 与 属性 之 间 的 相互 关系 来 确定 属性 子 集 ， 后 者 不 使 用 类 
别 信息 ， 使 用 聚 类 方法 评估 属性 的 贡献 度 ， 根 据 贡献 度 来 确定 属性 子 集 。 

5. 属性 创建 

属性 创建 就 是 通过 对 数据 集中 旧 的 属性 进行 处 理 ， 创 建新 的 数据 集 ， 这 样 能 更 有 效 地 
获取 重要 的 信息 。 由 于 通常 新 数据 集 的 维度 比 原 数据 集 少 ， 因 此 ， 可 以 获得 维度 归 约 带 来 
的 好 处 。 属 性 创建 有 三 种 方法 : 属性 提取 、 映 射 数据 到 新 空间 和 属性 构造 。 

属性 提取 是 指 由 原始 数据 创建 新 的 属性 集 。 例 如 ， 对 照片 数据 进行 处 理 ， 提 取 一 些 较 
高 层次 的 特征 ， 诸 如 与 人 脸 高 度 相关 的 边 和 区 域 等 ， 就 可 以 使 用 更 多 的 分 类 技术 。 

映射 数据 到 新 空间 是 指使 用 一 种 完全 不 同 的 视角 挖掘 数据 ， 这 可 能 会 揭示 出 重要 而 有 
趣 的 特征 。 例 如 ， 对 时 间 序 列 实 施 傅 里 叶 变换 ， 将 其 转换 为 频率 信息 ， 可 能 会 检测 到 其 中 
的 周期 模式 。 

当 原 始 数据 集 的 属性 含有 必要 信息 ， 但 其 形式 不 适合 数据 挖掘 算法 的 时 候 ， 可 以 使 用 
属性 构造 ， 通 过 一 个 或 多 个 原来 的 属性 构造 出 新 的 属性 。 


6. 离散 化 和 二 元 化 


有 的 数据 挖掘 算法 ， 尤 其 是 某 些 分 类 算法 ， 要 求 数据 是 分 类 属性 的 形式 ， 发 现 关 联 模 
式 的 算法 要 求 数据 是 二 元 属性 的 形式 。 因 此 ， 需 要 进行 属性 变换 。 将 连续 属性 转换 为 分 类 
属性 称 为 离散 化 (discretization)， 将 连续 和 离散 属性 转换 为 一 个 或 多 个 二 元 属性 称 为 二 元 化 
(binarization)。 

连续 属性 离散 化 为 分 类 属性 可 分 为 两 个 子 任务 : 决定 需要 多 少 个 分 类 值 ， 以 及 决定 如 
何 将 连续 属性 值 映 射 到 这 些 分 类 值 中 。 因 此 ， 离 散 化 问题 就 是 要 决定 选择 多 少 个 分 割 
点 ， 以 及 确定 分 割 点 的 位 置 ， 利 用 少数 分 类 值 标签 蔡 换 连 续 属性 的 值 ， 从 而 减少 和 简化 原 
来 的 数据 。 

根据 是 否 使 用 类 别 信息 ， 可 以 将 离散 化 技术 分 为 两 类 : 使 用 类 别 信息 的 称 为 有 监督 的 
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离散 化 ， 反 之 则 称 为 无 监督 的 离散 化 。 
等 宽 和 等 频 离 散 化 是 两 种 常用 的 无 监督 的 离散 化 方法 。 等 宽 (equal width) 离 散 化 将 属性 
的 值 域 划分 为 相同 宽度 的 区 间 ， 区 间 的 数目 由 用 户 指 定 。 这 种 方式 常常 会 造成 实例 分 布 不 
均匀 。 等 频 (equal frequency) 离 散 化 也 称 为 等 深 (equal depth) 离 散 化 ， 它 试图 将 相同 数量 的 对 
象 放 进 每 个 区 间 ， 区 间 的 数目 由 用 户 指定 。 
7. 变量 变换 
变量 变换 (variable transformation) 也 称 为 属性 变换 ， 是 指 用 于 变量 的 所 有 值 的 变换 。 下 
讨论 两 种 重要 的 变量 变换 : 简单 函数 变换 和 标准 化 。 
简单 函数 变换 是 使 用 一 个 简单 数学 函数 分 别 作用 于 每 一 个 值 。 在 统计 学 中 ， 平 方 根 、 
对 数 变换 和 倒数 变换 等 变量 变换 常用 于 将 不 具有 高 斯 分 布 的 数据 变换 为 具有 高 斯 分 布 的 
数据 。 
变量 标准 化 (standardization) 的 目的 是 使 整个 值 的 集合 县 有 特定 的 性 质 。 例 如 ， 假 设 x 
是 某 个 属性 的 均值 ，s, 是 其 标准 差 ， 则 变换 公式 x'= (x 一 下 )/s, 创 建 一 个 具有 均值 0 和 标准 
差 1 的 新 的 变量 。 由 于 均值 和 标准 差 受 离 群 点 的 影响 较 大 ， 因 此 ， 常 常 修正 上 述 变换 。 例 
如 ， 用 中 位 数 (median) 替 代 均 值 ， 用 绝对 标准 差 蔡 代 标 准 差 等 。 


1.2.5 “分 类 与 回归 


分 类 (classification) 与 回归 (regression) 是 数据 挖掘 应 用 领域 的 重要 技术 。 分 类 就 是 在 已 
有 数据 的 基础 上 学 习 出 一 个 分 类 函数 或 构造 出 一 个 分 类 模型 ， 这 就 是 通常 所 说 的 分 类 器 
(classifier)。 该 函数 或 模型 能 够 把 数据 集中 的 数据 映射 到 某 个 给 定 的 类 别 ， 从 而 用 于 数据 预 
测 。 分 类 和 回归 是 预测 的 两 种 形式 ， 分 类 预测 的 输出 目标 是 离散 值 ， 而 回归 预测 的 输出 目 
标 是 连续 值 。 因 此 ， 在 Weka 中 ， 分 类 和 回归 都 归 为 同一 类 的 问题 ， 都 是 要 构建 能 对 目标 
进行 预测 的 分 类 器 。 

在 分 类 之 前 ， 先 要 将 数据 集 划 分 为 训练 集 和 测试 集 两 个 部 分 。 分 类 分 两 步 : 第 一 步 ， 
分 析 训 练 集 的 特点 并 构建 分 类 模型 ， 常 用 的 分 类 模型 有 决策 树 、 贝 叶 斯 分 类 器 、 大 最 近邻 
分 类 等 ， 第 二 步 ， 使 用 构建 好 的 分 类 模型 对 测试 集 进行 分 类 ， 评 估 分 类 模型 的 分 类 准确 度 
等 指标 ， 选 择 满意 的 分 类 模型 。 

分 类 模型 学 习 方 法 主要 分 为 以 下 几 类 。 

1. 决策 树 分 类 

决策 树 分 类 方法 对 训练 集 进行 训练 ， 生 成 一 棵 二 叉 或 多 叉 的 决策 树 。 决 策 树 包含 三 种 
节点 ， 根 节点 没有 入 边 ， 但 有 零 条 或 多 条 出 边 ; 内 部 节点 只 有 一 条 入 边 和 两 条 或 多 条 出 
边 ; 叶 节点 只 有 一 条 入 边 ， 但 没有 出 边 。 树 的 叶 节 点 代表 某 一 个 类 别 值 ， 非 叶 节 点 代表 某 
个 一 般 属 性 ( 非 类 别 属性 ) 的 一 个 测试 ， 测 试 的 输出 构成 该 非 叶 节点 的 多 个 分 支 。 从 根 节点 
到 叶 节 点 的 一 条 路 径 形成 一 条 分 类 规则 ， 一 棵 决策 树 能 够 方便 地 转化 为 若干 分 类 规则 ， 挖 
掘 者 可 以 根据 分 类 规则 直观 地 对 未 知 类 别 的 样本 进行 预测 。 具 体 方法 是 ， 从 树 的 根 节点 开 
始 ， 将 测试 条 件 用 于 检验 样本 ， 根 据 测 试 结果 选择 适当 的 分 支 ， 沿 着 该 分 支 要 么 到 达 另 一 
个 内 部 节点 ， 再 次 使 用 新 的 测试 规则 ; 要 么 到 达 叶 节点 ， 结 果 是 将 叶 节点 的 类 别 标号 赋值 


给 检验 样本 。 

决策 树 归 纳 的 学 习 算 法 必须 解决 以 下 两 个 问题 。 

第 一 ， 如 何 分 裂 训练 样本 集 ? 树 在 增长 过 程 中 的 每 个 递归 步 必须 选择 一 个 属性 作为 测 
试 条 件 ， 将 样本 集 划 分 为 更 小 的 子 集 。 为 了 实现 该 步 ， 算 法 必须 提供 为 不 同类 型 的 属性 指 
定 测试 条 件 的 方法 ， 并 且 提 供 评估 每 种 测试 条 件 的 客观 度量 。 

第 二 ， 如 何 停止 分 裂 过 程 ? 需要 有 终止 决策 树 生 长 过 程 的 结束 条 件 。 可 能 的 策略 是 一 
直 分 裂 ， 直 到 所 有 的 样本 都 属于 同一 个 类 别 ， 或 者 所 有 样本 的 属性 值 都 相同 。 也 可 以 使 用 
其 他 策略 提前 终止 树 的 生长 过 程 。 

不 同 决策 树 采用 的 技术 不 同 ， 目 前 已 经 有 很 多 成 熟 而 有 效 的 决策 树 学 习 算 法 ， 如 
ID3、C4.5、CART、Random Forest 等 。 具 体 算法 详 见 后 文 。 


2. 贝 叶 斯 分 类 


贝 叶 斯 分 类 方法 有 一 个 明确 的 基本 概率 模型 ， 用 以 给 出 某 个 样本 属于 某 个 类 别 标签 的 
概率 。 贝 叶 斯 分 类 方法 有 两 种 主要 实现 : 朴素 贝 叶 斯 分 类 器 和 贝 叶 斯 网 络 。 朴 素 贝 叶 斯 分 
类 器 是 基于 贝 叶 斯 定理 的 统计 分 类 方法 ， 它 假定 属性 之 间 相 互 独立 ， 但 实际 数据 集中 很 难 
保证 这 一 条 件 。 朴 素 贝 叶 斯 分 类 器 分 类 速度 快 且 分 类 准确 度 高 ， 支 持 增 量 学 习 。 贝 叶 斯 网 
络 使 用 一 种 称 为 贝 叶 斯 网 络 的 概率 网 络 来 描述 属性 之 间 的 依赖 关系 ，Weka 对 贝 叶 斯 网 
络 有 很 好 的 支持 ， 详 见 后 文 。 

3.k- 最 近邻 分 类 

前 面 所 介绍 的 决策 树 分 类 器 是 一 种 积极 学 习 器 (eager learner)， 因 为 只 要 训练 数据 可 
用 ， 它 就 开始 学 习 从 输入 属性 到 类 别 标签 的 映射 模型 。 另 一 种 策略 则 是 推迟 对 训练 模型 的 
建 模 ， 直 到 需要 分 类 测试 样本 时 再 进行 ， 对 应 的 分 类 器 称 为 消极 学 习 器 (lazy leamenD。 大 最 
近邻 分 类 算法 使 用 的 就 是 后 一 种 策略 ， 它 是 一 种 基于 实例 的 学 习 算 法 ， 不 需要 事先 使 用 训 
练 样本 构建 分 类 器 ， 而 是 直接 使 用 训练 集 对 测试 样本 进行 分 类 ， 以 确定 类 别 标签 。 

所 最 近邻 分 类 使 用 具体 的 训练 实例 进行 预测 ， 不 必 维 护 从 数据 集中 抽象 出 来 的 模型 。 
这 种 基于 实例 的 学 习 算 法 需要 邻近 性 度量 来 确定 实例 间 的 相似 度 或 距离 ， 还 需要 分 类 函数 
根据 测试 实例 与 其 他 实例 的 邻近 性 返回 测试 实例 的 预测 类 别 标签 。 虽 然 消极 学 习 方 法 不 需 
要 建立 模型 ， 但 对 测试 实例 进行 分 类 的 开销 很 大 ， 因 为 需要 逐个 计算 测试 样本 和 训练 样 
本 之 间 的 相似 度 。 相 反 ， 积 极 学 习 方 法 通常 花费 大 量 的 计算 资源 来 建立 模型 ， 但 一 旦 建立 
模型 之 后 ， 对 测试 实例 进行 分 类 就 会 非常 快 。 大 最 近邻 分 类 器 基于 局 部 信息 进行 预测 ， 而 
决策 树 分 类 器 则 试图 找到 一 个 适合 整个 输入 空间 的 全 局 模型 。 由 于 基于 局 部 分 类 策略 ， 大 
最 近邻 分 类 器 在 天 很 小 的 时 候 对 噪声 非常 敏感 。 

Weka 实现 的 大 最 近邻 分 类 算法 称 为 IBk， 可 以 通过 交叉 验证 选择 适当 的 磊 值 ， 还 可 以 
实现 距离 加 权 。 

4. 神经 网 络 分 类 


神经 网 络 (neural network) 是 大 量 的 简单 神经 元 按 一 定 规则 连接 构成 的 网 络 系统 ， 能 够 
模拟 人 类 大 脑 的 结构 和 功能 。 它 采用 某 种 学 习 算法 从 训练 样本 中 学 习 ， 将 获取 的 知识 存储 
在 网 络 模型 的 权 值 中 ， 通 过 模拟 人 类 大 脑 在 同一 个 脉冲 的 反复 刺激 下 改变 神经 元 之 间 的 神 
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经 键 连接 强度 来 进行 学 习 。 

按照 各 神经 元 的 不 同 连接 方式 ， 神 经 网 络 分 为 前 向 网 络 和 反馈 网 络 。 目 前 的 神经 网 络 
模型 非常 丰富 ， 典 型 的 模型 有 感知 器 模型 、 多 层 前 向 传播 模型 、BP( 反 向 传播 ) 模 型 、 
Hopfield 模型 、SOM(Self-Organizing Map， 自 组 织 映射 ) 模 型 等 。 

Weka 神经 网 络 使 用 多 层 感知 器 实现 了 BP 神经 网 络 ， 详 见 第 6 章 。 


1.2.6 聚 类 分 析 


聚 类 (clustering) 就 是 将 数据 集 划 分 为 由 若干 相似 实例 组 成 的 簇 (cluster) 的 过 程 ， 使 得 同 
一 个 簇 中 实例 间 的 相似 度 最 大 化 ， 不 同 簇 中 实例 间 的 相似 度 最 小 化 。 也 就 是 说 ， 一 个 簇 就 
是 由 彼此 相似 的 一 组 对 象 所 构成 的 集合 ， 不 同 簇 中 的 实例 通常 不 相似 或 相似 度 很 低 。 

聚 类 分 析 是 数据 挖掘 和 机 器 学 习 中 十 分 重要 的 技术 ， 应 用 领域 极为 广泛 ， 如 统计 学 、 
模式 识别 、 生 物 学 、 空 间 数 据 库 技术 、 电 子 商务 等 。 

作为 一 种 重要 的 数据 挖掘 技术 ， 聚 类 是 一 种 无 监督 的 机 器 学 习 方法 ， 主 要 依据 样本 间 
相似 性 的 度量 标准 将 数据 集 自动 划分 为 几 个 艇 ， 聚 类 中 的 簇 不 是 预先 定义 的 ， 而 是 根据 实 
际 数据 的 特征 按照 数据 之 间 的 相似 性 来 定义 的 。 聚 类 分 析 算法 的 输入 是 一 组 样本 以 及 一 个 
度量 样本 间 相 似 度 的 标准 ， 输 出 是 簇 的 集合 。 聚 类 分 析 的 另 一 个 副产品 是 对 每 个 簇 的 综合 
描述 ， 这 个 结果 对 于 进一步 深入 分 析 数 据 集 的 特性 尤为 重要 。 聚 类 方法 适合 用 于 讨论 样本 
间 的 相互 关联 ， 从 而 能 初步 评价 其 样本 结构 。 

数据 挖掘 关心 聚 类 算法 的 如 下 特性 : 处理 不 同类 型 属性 的 能 力 、 对 大 型 数据 集 的 可 扩 
展 性 、 处 理 高 维 数据 的 能 力 、 发 现任 意 形状 簇 的 能 力 、 处 理 孤立 点 或 “噪声 ”数据 的 能 
力 、 对 数据 顺序 的 不 敏感 性 、 对 先 验 知识 和 用 户 自 定义 参数 的 依赖 性 、 聚 类 结果 的 可 解释 
性 和 实用 性 、 基 于 约束 的 聚 类 等 。 

聚 类 分 析 方 法 主要 有 划分 的 方法 、 层 次 的 方法 、 基 于 密度 的 方法 、 基 于 网 格 的 方法 、 
基于 模型 的 方法 等 。Weka 实现 的 聚 类 算法 主要 有 上 均值 算法 、EM( 期 望 最 大 化 ) 算 法 和 
DBSCAN 算法 。 


1.2.7 关联 分 析 


商业 企业 在 日 复 一 日 的 运营 中 积累 了 大 量 的 数据 。 例 如 ， 超 市 的 收银 台 每 天 都 要 记录 
大 量 的 顾客 购物 数据 ， 这 种 数据 通常 称 为 购物 篮 事务 。 商 家 对 分 析 这 些 数据 很 感 兴趣 ， 因 
为 分 析 它 可 以 了 解 顾客 的 购买 行为 。 关 联 分 析 (association analysis) 方 法 就 用 于 发 现 隐藏 在 
大 型 数据 集中 有 意义 的 联系 ， 这 种 联系 可 以 用 关联 规则 (association rule) 进 行 表示 。 例 如 ， 
商家 通过 关联 分 析 挖掘 商场 销售 数据 ， 发 现 顾客 的 购买 习惯 ， 如 购买 产品 和 的 同时 也 购买 
产品 Y， 于 是 ， 超 市 就 可 以 调整 货架 的 布局 ， 将 义 产 品 和 YY 产品 放 在 一 起 ， 以 提升 销量 。 
因此 ， 关 联 分 析 为 商场 进行 商品 促销 以 及 货架 摆 放 提供 了 辅助 决策 信息 。 

例如 ， 沃 尔 玛 从 销售 数据 中 发 现 这 样 一 个 令 人 菲 夷 所 思 的 规则 {尿布} 一 {啤酒 }。 该 
规则 表明 尿布 和 啤酒 的 销售 之 间 存 在 着 很 强 的 联系 。 原 来 ， 美 国 妇女 通常 在 家 照顾 孩子 ， 
所 以 她 们 会 经 常 嘱 只 丈 夫 在 下 班 回 家 的 路 上 为 孩子 买 尿 布 ， 而 丈夫 在 买 尿布 的 同时 又 会 顺 
手 购 买 自己 爱 喝 的 啤酒 。 得 益 于 所 发 现 的 新 的 交叉 销售 商机 ， 沃 尔 玛 将 啤酒 和 尿布 这 两 个 


看 上 去 毫 无 关联 的 商品 摆 放 在 一 起 销售 ， 获 得 了 很 好 的 销售 收益 。 

除 购物 篮 数据 外 ， 关 联 分 析 还 可 以 应 用 于 其 他 领域 ， 如 生物 信息 学 、 医 疗 诊断 、 网 页 
挖掘 和 科学 数据 分 析 等 。 例 如 ， 通 过 关联 分 析 挖掘 医疗 诊断 数据 ， 可 以 发 现 症 状 与 疾病 之 
间 的 关联 ， 为 医生 诊断 疾病 和 治疗 提供 线索 。 

关联 分 析 最 著名 的 算法 是 Apriori 算法 ， 其 核心 是 基于 两 阶段 频繁 项 集 思 想 的 递 推算 
法 。 寻 找 最 大 项 集 (频繁 项 集 ) 的 基本 思想 是 : 算法 需要 对 数据 集 进行 多 步 处 理 。 第 一 步 ， 
简单 统计 所 有 含 一 个 元 素 项 集 出 现 的 频数 ， 并 找 出 那些 不 小 于 最 小 支持 度 的 项 集 ， 即 一 维 
最 大 项 集 。 从 第 二 步 开始 进行 循环 处 理 ， 直 到 再 没有 最 大 项 集 生 成 。 循 环 过 程 是 : 在 第 大 
步 中 ， 根 据 第 二 1 步 生 成 的 (tc-1) 维 最 大 项 集 产 生 大 维 候选 项 集 ， 然 后 对 数据 库 进 行 搜索 ， 
得 到 候选 项 集 的 支持 度 ， 与 最 小 支持 度 进行 比较 ， 从 而 找到 大 维 最 大 项 集 。 

Weka 实现 了 Apriori 算法 和 另 一 个 关联 分 析 的 FP-Growth( 频 繁 模式 增长 ) 算 法 。 


1.3 ”Weka 系统 安装 


本 节 介 绍 Weka 系统 的 安装 。 由 于 Weka 采用 Java 编写 ， 因 此 ， 具 有 Java“ 一 次 编 
译 ， 到 处 运行 ”的 特性 ，Weka 支持 的 操作 系统 有 Windows x86、Windows x64、Mac OS 
X、Linux 等 。 
1.3.1 系统 要 求 
表 1.1 列举 了 运行 Weka 的 特定 版 本 对 Java 版 本 的 要 求 。 
表 1.1 Weka 各 版 本 对 Java 版 本 的 要 求 " 


1.4 下 下 

<3.4.0 XxX xX 

3.4.x X Xx 

3.5.X 350~352 xX 

Weka 12892, 20/02/2006 
3.6.X X X 
>3.7.0 
3.7.X X 
15678, 25/06/2009 


表 1.1 中 的 义 表 示 所 在 列 的 Java 版 本 支持 所 在 行 的 Weka 版 本 。 表 中 有 两 处 还 注 明 了 
因 版 本 变更 对 Java 版 本 要 求 的 变化 ， 采 用 前 级 rt 加 数字 表示 Subversion 修订 版 本 ， 并 列 出 


@ 来 源 : http://www.cs.waikato.ac.nz/~ml/weka/requirements.html。 
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变更 时 间 。 
在 Linux/GNOME 系统 中 ， 使 用 Java 1.5 及 以 上 版 本 会 遇 到 界面 的 缺 省 外 观 显示 问 
题 。Mac OS 用户 使 用 Weka 3.6.5/3.7.4 版 本 时 ， 需 要 安装 Java for Mac OS X 10.6 
Update 3 及 以 上 版 本 。 


1.3.2 ”安装 过 程 

下 面 介 绍 Weka 3.7.13 在 Windows 8.1 中 文 版 上 的 下 载 及 安装 过 程 。 

1. 下 载 

SourceForge.net 网 站 提供 Weka 各 类 版 本 的 下 载 ， 本 书 推荐 从 Weka 官网 链接 到 下 载 
地 址 ， 另 外 ，Weka 官网 还 提供 很 多 相关 资源 。 在 浏览 器 地 址 栏 中 输入 网 址 
“http://www.cs.waikato.ac.nz/~ml/weka/ ”， 并 按 Enter 键 ， 在 主页 的 导航 栏 中 单 击 
Download 超 链 接 ， 根 据 自 己 的 计算 机 所 安装 的 操作 系统 选择 下 载 文件 。 

要 注意 的 是 ，Weka 主要 版 本 有 三 种 ， 第 一 种 称 为 Snapshots( 快 照 版 本 )， 是 开发 过 程 
中 构建 的 版 本 ， 并 不 是 正式 版 ， 这 是 为 想 要 最 新 的 错误 修正 版 的 用 户 设置 的 ， 第 二 种 称 为 
Stable book 3rd ed. version( 第 3 版 书 的 稳定 版 本 )， 是 Ian H. Witten 的 第 3 版 著作 对 应 的 
Weka 实现 的 稳定 版 本 ， 版 本 为 3.6.x; 第 三 种 称 为 Developer version( 开 发 者 版 本 )， 目 前 版 
本 为 3.7x， 这 是 Weka 的 主干 版 本 ， 是 稳定 3.6 版 本 代码 的 延续 ， 进 行 了 错误 修复 并 新 增 
了 一 些 功能 ， 因 此 ， 它 是 学 习 和 研究 Weka 的 理想 版 本 ， 本 书 的 写作 就 基于 这 个 版 本 。 

由 于 作者 使 用 的 操作 系统 为 Windows 8.1 中 文 版 ， 并 且 已 经 安装 过 JDK 8( 要 求 JRE 7 
以 上 版 本 )， 因 此 ， 选 择 下 载 weka-3-7-13-x64.exe， 如 图 1.3 所 示 。 如 果 没 有 安装 过 Java， 
最 好 选择 下 载 自 带 Java VM 的 Weka 版 本 。 


360 安 全 浏览 器 7.1 
@ < clI 嫌 D acnz 


D | 加 | 了 weka3 -Data Mining withcx + 


Windows x64 


Click here to downloed a self-extracting executable that includes 64 bit Java VM 1.7 
(weka-3-7-13jre-x54.exe; 70.8 MB 


Click here to downloed a self-extracting executable without the Java VM 


(weka-3-7-13-x64.exe. 41.9 MB) 


These executables will install Weka in your Program Menu. Download the second version if you alrea| 


v Java 1.6 (or later) on your system. 
好 
时 Mac osX 
存 > 
[2 日 5 a VF PF BS 日 人 Qioo% 4 
图 1.3 选择 下 载 的 文件 
ci 
2. 安装 


下 载 完成 后 双击 .exe 文件 进行 安装 。 

首先 出 现 的 是 欢迎 窗口 ， 如 图 1.4 所 示 ， 单 击 Next 按钮 进入 下 一 步 。 

随后 出 现 的 是 GNU GPL 协议 ， 必 须 同意 才能 进行 安装 。 单 击 I Agree 按钮 ， 如 图 1.5 
所 示 。 


Welcome to the Weka 37 13 Setup 
Wizard 
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图 1.4 欢迎 窗口 图 1.5 同意 GNU GPL 协议 


下 一 步 是 选择 安装 组 件 。 选 项 有 Full、Minimal、Custom 三 项 ， 默 认为 Full。 由 于 完 
全 安装 也 不 占 多 大 空间 ， 建 议 选 择 默认 的 Full 选项 。 因 此 保持 默认 选项 ， 单 击 Next 按钮 
进入 下 一 步 ， 如 图 1.6 所 示 。 

下 一 步 是 选择 安装 路 径 。 根 据 自 己 计算 机 的 硬盘 空间 进行 选择 ， 建 议 安装 在 C 盘 的 
Weka-3-7 目录 下 ， 选 择 完成 后 ， 单 击 Next 按钮 进入 下 一 步 ， 如 图 1.7 所 示 。 
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图 1.6 选择 安装 组 件 图 1.7 选择 安装 路 径 


接 下 来 是 选择 开始 菜单 文件 夹 名 称 ， 这 里 是 Weka 3.7.13， 没 有 特殊 要 求 则 不 必 更 改 ， 
单 击 Install 按钮 开始 安装 ， 如 图 1.8 所 示 。 
Weko Doser oa oewas7 soe 
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1.8 选择 开始 菜单 文件 夹 名 称 
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一 一 WEKA 应 用 
安装 完成 后 ， 最 好 花 上 一 点 时 间 看 看 已 安装 的 文件 。 如 图 1.9 所 示 ，Weka-3-7 目录 下 

有 三 个 子 目 录 ，changelogs 子 目 录用 于 存放 Weka 版 本 的 变更 情况 ， 除 非 想 参与 到 Weka 项 
目的 开发 ， 或 者 想 知道 Weka 的 某 版 本 在 上 一 个 版 本 的 基础 上 究竟 变更 了 哪些 内 容 ， 才 需 

要 进行 研究 ;data 子 目 录 存 放 自 带 的 23 个 ARFF 文件 作为 测试 用 途 的 示例 数据 集 ， 详 见 后 
文 ; doc 子 目 录 存 放 Weka 文档 ， 进 行 二 次 开发 的 技术 人 员 需 要 仔细 阅读 。 
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1.9 安装 在 硬盘 上 的 文件 


安装 目录 下 还 有 几 个 文件 值得 关注 。WekaManual pdf 是 Weka 用 户 手 册 ， 不 论 新 手 还 


是 老 资格 用 户 ， 该 手册 都 很 有 用 ; weka-src.jar 是 打包 源 程 序 ， 可 以 解压 出 来 供 深 层次 的 用 
户 使 用 ，RunWeka.ini 是 运行 Weka 的 配置 文件 。 


1.3.3” Weka 使 用 初步 
由 于 从 Windows 8 开始 取消 了 开始 菜单 ， 很 多 人 觉得 使 用 不 方便 。 本 书 建议 安装 360 
软件 小 助手 ， 以 保持 原来 的 使 用 习惯 。 


Weka 安装 完成 后 ， 在 Windows 左下 角 的 360 软件 小 助手 菜单 中 ， 可 以 找到 Weka 
3.7.13 子 菜单 ， 下 面 有 四 个 菜单 项 ， 如 图 1.10 所 示 。 


单 击 第 一 个 菜单 项 Documentation( 参 考 资料 )， 可 以 浏览 pe 
Weka 提供 的 非常 有 用 的 参考 资料 ， 包 括 Weka 手册 、Java De 
包 API 文档 ， 还 有 一 些 在 线 资源 ， 如 Weka 主页 、 © weka 37 
WekaWiki 、 Pentaho 的 Weka 社区 文档 ， 以 及 
图 1.10 Wek 
SourceForge.net 网 站 下 的 Weka， 如 图 1.11 所 示 。 加 re 
Re 
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1.11 Weka 参考 资料 


第 二 个 菜单 项 用 于 印 载 Weka。 

第 三 和 第 四 个 菜单 项 均 可 以 启动 Weka 界面 ， 不 同 的 是 前 者 带 有 一 个 控制 台 输 出 ， 而 
后 者 没有 。 不 管 使 用 哪 种 方式 启动 Weka， 主 界面 均 显示 为 Weka GUI 选择 器 窗口 ， 如 前 
文 的 图 1.2 所 示 。 这 里 主要 介绍 Weka 的 菜单 。 

Weka 使 用 的 MDI( 多 文档 界面 ) 外 观 让 所 有 打开 的 窗口 更 加 简洁 明了 。Weka 菜单 分 为 
以 下 四 个 部 分 。 

1. Program( 编 排 ) 菜 单 


LogWindow( 日 志 窗口 ) 菜 单项 : 打开 一 个 记录 输出 到 stdout 或 stderr 内 容 的 日 志 
窗口 。 在 Windows 环境 下 ， 如 果 以 不 带 控制 台 输 出 的 方式 启动 Weka， 日 志 窗 口 比 
较 有 用 。 

Memory usage( 内 存 使 用 情况 ) 菜 单项 : 打开 一 个 显示 内 存 使 用 情况 的 窗口 ， 如 果 用 
户 发 现 内 存 占用 过 大 ， 可 单 击 窗口 右边 的 GC 按钮 ， 启 动 垃圾 回收 器 ， 如 图 1.12 
所 示 。 


图 1.12 内存 使 用 情况 


Exit( 退 出 ) 菜 单项 ， 关闭 Weka。 


. Visualization( 可 视 化 ) 菜 单 


Plot( 散 点 图 ) 菜 单项 : 画 出 数据 集 的 二 维 散 点 图 。 

ROC( 接 收 者 操作 特征 ) 菜 单项 ， 打开 预先 保存 的 文件 以 显示 ROC 曲线 。 
TreeVisualizer( 树 可 视 化 工具 ) 菜 单项 : 打开 预先 保存 的 文件 以 显示 一 个 有 向 图 ， 
例如 ， 决 策 树 。 

GraphVisualizer( 图 可 视 化 工具 ) 菜 单项 : 显示 XML、BIF 或 DOT 格式 的 图 片 ， 例 
如 ， 贝 叶 斯 网 络 。 

BoundaryVisualizer( 边 界 可 视 化 工具 ) 菜 单项 : 允许 在 二 维 空间 中 对 分 类 器 的 决策 
边界 进行 可 视 化 。 


. Tools( 工 具 ) 菜 单 


Package manager( 包 管理 器 ) 菜 单项 : 允许 用 户 选 择 安装 感 兴 趣 或 需要 的 算法 软 
件 包 。 

ArffViewer(ARFF 查看 器 ) 菜 单项 : 一 个 MDI 应 用 程序 ， 使 用 电子 表格 的 形式 来 
查看 ARFF 文件 。 

SqlViewer(SQL 查看 器 ) 菜 单项 : 通过 JDBC(Java 数据 库 连 接 ) 查 询 数 据 库 的 简单 
窗口 ， 支 持 连 接 数据 库 ， 执 行 SQL 语句 ， 并 显示 结果 。 

Bayes net editor( 贝 叶 斯 网 络 编辑 器 ) 菜 单项 : 一 个 编辑 、 可 视 化 和 学 习 贝 叶 斯 网 络 
的 应 用 程序 。 


器 六 eeN 机 【小 人 IE 


@« 


Oc« 


数据 挖掘 与 机 器 学 习 
WE 


4. Help( 帮 助 ) 菜 单 


e ”Weka homepage(Weka 主页 ) 菜 单项 : 打开 一 个 浏览 器 窗口 ， 显 示 Weka 主页 。 

ee HOWTOs，code snippets，etc( 基 本 知识 、 代 码 段 等 ) 菜 单项 : 打开 常用 的 
WekaWiki ， 其 中 含有 大 量 的 示例 ， 以 及 开发 和 使 用 Weka 的 基本 知识 
(HOWTO)。 

e@ Weka on Sourceforge(Sourceforge 网 站 的 Weka) 菜 单项 : 打开 Weka 项 目 在 
Sourceforge.net 网 站 上 的 主页 。 

e SystemInfo( 系 统 信息 ) 菜 单项 : 列 出 一 些 关 于 Java 和 Weka 的 环境 信息 ， 如 
WEKA HOME、file.encoding 等 。 


1.3.4 系统 运行 注意 事项 

1. 使 用 Weka 包 管理 器 

通常 术语 “ 包 ”(package) 指 的 是 Java 通过 包 来 组 织 Java 类 。 自 Weka 3.7.2 开始 ， 
Weka 引入 包 的 概念 ， 它 将 额外 功能 从 weka.jar 文件 中 分 离 ， 以 软件 包 的 形式 单独 提供 。 
Weka 包 由 各 种 jar 文件 、 文 档 、 元 数据 ， 以 及 可 能 的 源 代码 组 成 。 从 版 本 3.7.2 开始 ， 早 
期 版 本 Weka 中 的 许多 学 习 算 法 和 工具 就 分 离 出 来 成 为 单独 的 包 。 这 样 做 的 最 大 好 处 就 是 
简化 了 Weka 的 核心 系统 ， 人 允许 用 户 选择 安装 自己 需要 或 者 感 兴趣 的 软件 包 。 它 还 提供 了 

-种 简单 机 制 ， 用 户 能 够 及 时 使 用 到 Weka 爱好 者 提供 的 新 功能 。Weka 可 以 使 用 很 多 

包 ， 这 些 包 以 某 种 方式 添加 学 习 方 案 ， 或 扩展 核心 系统 的 功能 ， 很 多 包 都 由 Weka 团队 
和 第 三 方 提供 。 

Weka 自 带 有 软件 包 的 管理 机 制 ， 能 在 运行 时 动态 加 载 包 。 软 件 包 管理 器 分 为 命令 行 
和 图 形 用 户 界面 (GUD) 两 种 ， 下 面 分 别 予 以 说 明 。 

假定 weka.jar 文件 在 classpath 路 径 中 ， 使 用 如 下 命令 即 可 访问 包 管 理 器 : 


java weka.core.WekaPackageManager 


运行 结果 如 图 1.13 所 示 。 详 细 的 命令 行 包 管理 器 的 使 用 将 在 第 5 章 讲述 。 


图 1.13 命令 行 包 管理 器 


可 以 看 到 ， 除 非 是 专业 程序 员 ， 使 用 命令 行 包 管理 器 非常 麻烦 ， 要 求 输入 若干 命令 行 
选项 。 因 此 ， 普 通 人 员 还 是 使 用 GUI 进行 包 管理 较为 直观 方便 。 

首先 启动 Weka GUI 选择 器 窗口 ， 在 Tools 菜单 下 ， 选 择 Package manager 菜单 项 ， 或 者 
按 CtrlHU 快捷 键 ， 会 弹出 如 图 1.14 所 示 的 Package Manager( 包 管理 器 ) 窗 口 。 命 令 行 包 管理 
器 中 包含 的 全 部 功能 都 可 以 在 GUI 版 本 中 使 用 ，GUI 版 本 还 能 够 一 键 安装 和 外 载 多 个 包 。 


Weka 3: Data Mining Software in Java 

Weka is a collection of machine learming algorithms for data mining tasks, The algorihms can either be 
applied directly to a dataset or called from your own Java code. Weka contains tools for data 
pre-processing, classification, regression, dustering, association rules and visualization. Tt is also 
well-suited for developing new machine leaming schemes. 

Weka is open source software ssued under the GNU General Public License. 


Pentaho's live forum for Weka 
The open-souroe BI software company Pentaho is a major sponsor of Weka development and provides 
ave forum for nteraction among Weka projeck community members. 


The Weka mailing list 
Please post Weka-related questions comments, and bug repo 


1.14 Package Manager 窗口 


Package Manager 窗口 可 分 为 上 、 下 两 部 分 : 顶部 是 一 个 软件 包 的 列表 ; 底部 是 一 个 小 
型 的 浏览 器 ， 用 于 显示 当前 选择 的 包 信息 。 

包 列 表 中 显示 了 包 的 名 称 (Package)、 类 别 (Category)、 如 已 安装 则 显示 目前 安装 的 版 本 
(Installed version)、 存 储 库 中 可 用 的 最 新 版 本 (Repository version)， 以 及 包 是 否 已 经 加 载 
(Loaded)。 可 以 通过 单 击 此 列表 相应 的 列 标题 ， 按 照 包 名 称 或 类 别 进行 排序 。 第 二 次 单 击 
相同 列 标题 会 反 转 排列 顺序 。 在 窗口 左上 角 ， 有 三 个 单 选 按钮 可 以 用 来 过 滤 列 表 中 显示 的 
内 容 ， 默 认 选 中 All( 所 有 软件 包 ) 单 选 按钮 ，Available 单 选 按钮 用 于 显示 所 有 可 用 的 尚未 安 
装 软件 包 ，Installed 单 选 按钮 用 于 显示 已 安装 的 软件 包 。 

如 果 某 一 种 软件 包 有 多 个 版 本 可 用 ， 可 以 选择 对 应 的 Repository version 列 来 选取 
版 本 。 具 体 方法 是 ， 单 击 该 列 ， 在 出 现 的 下 拉 列 表 框 中 选择 希望 安装 的 版 本 。 

窗口 顶部 有 四 个 按钮 ， 分 别 为 Refresh repository cache( 刷 新 库 缓存 )、Install( 安 装 )、 
Uninstall( 卸 载 ) 和 Toggle load( 切 换 加 载 )。 第 一 个 按钮 用 于 刷新 包 信 息 库 中 的 元 数据 的 缓存 
副本 。 第 一 次 使 用 程序 包 管理 器 时 ， 不 论 是 GUI 版 本 还 是 命令 行 版 本 ， 都 会 出 现 短暂 的 延 
迟 ， 这 是 因为 第 一 次 要 建立 初始 缓存 。Install 和 Uninstall 按钮 分 别 用 于 安装 和 印 载 包 ， 可 
以 一 次 安装 或 卸载 多 个 包 ， 可 以 在 按 住 Shift 键 的 同时 选择 一 定 范围 内 连续 的 包 ， 也 可 以 
在 按 住 Ctrl 键 的 同时 将 不 连续 的 包 依 次 添加 到 选择 集合 中 。Toggle load 按钮 用 于 切换 已 安 
装 包 的 加 载 状态 ， 在 Loaded 列 的 Yes 与 No 之 间 进 行 切 换 ， 切 换 时 会 弹出 一 个 信息 对 话 
框 ， 指 示 修 改 的 加 载 状态 必须 在 重启 Weka 之 后 才 会 生效 。 在 Install 和 Uninstall 按钮 的 下 
面 ， 有 一 个 Ignore dependencies/conflicts( 忽 略 依赖 关系 和 冲突 ) 复 选 框 ， 选 中 该 复 选 框 可 以 
忽略 所 选择 软件 包 的 依赖 关系 和 可 能 发 生 的 任何 冲突 。 如 果 在 安装 软件 包 时 选中 该 复 选 
框 ， 将 无 法 安装 存在 依赖 关系 的 软件 包 。 

下 面 以 LibSVM(SVM 模式 与 回归 软件 包 ) 的 安装 和 外 载 为 实例 进行 说 明 。 

首先 安装 。 选 中 All 单 选 按钮 ， 显 示 全 部 包 ， 选 中 LibSVM 包 ， 如 图 1.15 所 示 。 

然后 ， 单 击 Install 按钮 进行 安装 。 这 时 ，Weka 会 弹出 一 个 窗口 请 用 户 确 认 ， 单 
“是 (Y)” 按 钮 确认 自己 的 操作 。 包 管理 器 窗口 右上 角 显 示 安 装 进度 ， 经 过 一 小 段 时 间 后 ， 
所 选中 的 LibSVM 包 对 应 的 Loaded 列 也 会 显示 Yes 字样 ， 说 明 安 装 完 成 。 
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LibSVM: A wrapper class for the libsvm tools 和 
URL: https://www.csie.ntu.edu.tw/~cilin/libsym/ 
Author: FracPete <fracpete{[at]}waikato.ac.nz> 
Maintainer: FracPete <fracpete{[at]}waikato.ac.nz> 
A wrapper class for the libsvm library, including support for one-class SVMs, 
v 


1.15 选中 要 安装 的 包 


现在 印 载 LibSVM 包 。 选 中 Installed 单 选 按钮 ， 显 示 已 安装 的 包 ， 选 中 LibSVM 包 ， 
这 时 ，Uninstall 按钮 从 不 可 用 变 为 可 用 ， 如 图 1.16 所 示 。 
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LibSVM: A wrapper class for the libsvm tools 

URL: httpi//www,cs,lastate, edu/~yasser/wilsym/ 
Author: FracPete <fracpete{[at]}walkato.ac.nz> 
Maintainer': FracPete <fracpete{[at]jwaikato.acnz> 


A wrapper class for the libsvm tools (the libsvm classes, typically the jar file, need to be in the dasspath to use this dassifier). 
LibSVM runs faster than SMO since it uses LibSVM to build the SVM classifier. LibSVM allows users to experiment with One-class 
SYM, Regressing SVM and nu-SVM supported by LibsVM tool. LibSVM reports many useful statistics about LibSVM dassifier (e.g., 
confusion matrix,precision, recall, ROC score, etc.) 


All available versions: 


图 1.16 ”选中 要 卸载 的 包 

单 击 Uninstall 按钮 ， 会 出 现 一 个 警告 窗口 ， 单 击 “ 是 (Y) ”按钮 确认 自己 的 操作 。 经 
过 一 小 段 时 间 后 ，Weka 提示 需要 重新 启动 以 便 使 更 改 生效 ， 单 击 “ 确 定 ”按钮 重启 
Weka。 

有 时 ， 读 者 会 遇 到 因 网 络 问题 无 法 连接 包 管 理 器 网 站 下 载 Weka 的 附加 算法 包 的 问 
题 ， 下 面 提供 一 个 简单 的 解决 方案 。 

通过 浏览 器 连接 网 址 http://sourceforge.net/projects/weka/files/weka-packages/， 如 图 1.17 
所 示 。 如 果 无 法 连接 ， 可 设置 代理 服务 器 。 
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图 1.17 Weka 算法 包 下 载 页 
选择 并 下 载 需要 的 算法 后 ， 解 压 ， 然 后 在 类 路 径 中 加 入 解压 后 的 jar 文件 全 路 径 名 。 
下 面 以 安装 LibSVM1.0.6.zip 的 实例 进行 说 明 。 
首先 停止 运行 Weka， 下 载 LibSVM1.0.6.zip 文件 ， 并 解压 到 某 个 目录 中 ， 如 
D:\LibSVM 目录 ， 如 图 1.18 所 示 。 


全 部 取消 


Da - La 国人 was 
司 妈 机 沪 同 - A 
有 性 


务 奸 


2015/3/21 1622 
2015/3/21 1622 
2015/3/21 16:22 
build_packageaml 2014/4/26 2041 。 XML 文件 
£ Deccriptionprope 2014/4126 20141 。 project Property. 
国 ubsvwjar 2014/4/26 20:11 。 Executable Jar File 
司 pomxml 2014/4/26 2041 。 XML 文件 


7 个 项 目 ”选中 1 个 项 目 


1.18 LibSVM 解压 的 目录 


然后 设置 环境 变量 ， 如 图 1.19 所 示 。 变 量 名 为 CLASSPATH， 变 量 值 为 
“Di\LibSVM\LibSVM.jar:D:\LibSVM\lib\libsvm.jar;”。 


CLASSPATH 


DALibSyM\LibSyMjar:DALibSYMVib\libsvr| 


1.19 ”LibSVM 环境 变量 设置 


Ox 


y 
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和 注意 : 第 一 ，LibSVM 需要 设 定 两 个 jar 文件 ， 其 他 算法 可 能 只 需要 设 定 一 个 即 可 ; 
第 二 ， 冒 号 和 分 号 一 定 要 是 英文 半角 字符 ; 第 三 ， 如 果 CLASSPATH 原来 就 
有 值 ， 请 不 要 删除 原 值 ， 添 加 新 值 即 可 。 
最 后 ， 重 新 启动 Weka， 打 开 数 据 集 ， 切 换 至 Classify( 分 类 ) 标 签 页 。 可 以 看 到 ， 已 经 
可 以 使 用 LibSVM 算法 包 ， 如 图 1.20 所 示 。 


raprsars| clesstE | clssrae] Meveciare | Selore sreribaess | isnalizs| 


1.20 成功 加 载 LibSVM 算法 包 
如 果 所 在 单位 使 用 HTTP 代理 服务 器 访问 Intemet， 可 以 尝试 使 用 代理 。 具 体 方法 是 ， 
从 命令 行 启动 Weka 时 提供 代理 服务 器 主机 名 及 端口 号 ， 如 : 
java -Dhttp.proxyHost=proxyHostOrIP -Dhttp.proxyPort=port weka.gui.GUIChooser 
请 自行 将 proxyHostOrIP 蔡 换 为 自己 的 代理 服务 器 名 或 卫 ，port 替换 为 端口 号 。 
如 果 代 理 服务 器 需要 认证 ， 请 使 用 -Dhttp.proxyUser 和 -Dhttp.proxyPassword 属性 分 别 
提供 用 户 名 和 密码 。 


另外 ， 还 可 以 将 上 述 代 理 服务 器 的 各 种 属性 加 到 RunWeka.ini 配置 文件 中 。 使 用 任意 
文本 编辑 器 打开 RunWeka.ini 文件 ， 在 约 第 17 行 ， 找 到 以 下 配置 : 


cmd default=javaw -Dfile.encoding=#fileEncoding# ... 


cmd default=javaw -Dfile.encoding=#fileEncoding# 一 
Dhttp.proxyHost=proxyHostOrIP -Dhttp.proxyPort=port 一 
Dfile.encoding=#fileEncoding# ... 


重新 启动 Weka， 包 管理 器 应 该 能 访问 Weka 附加 算法 包 。 
2. 设置 CLASSPATH 


CLASSPATH 环境 变量 告知 Java 应 该 在 什么 地 方 去 查找 Java 类 。 因 为 Java 总 是 按照 
一 定 顺序 去 查找 CLASSPATH 环境 变量 里 的 类 路 径 ， 因 此 ， 用 户 应 该 认真 考虑 将 何 种 路 径 
放 到 CLASSPATH 的 什么 位 置 。 


下 面 以 在 Windows 操作 系统 中 添加 MySQL 驱动 程序 mysql-connector-java-5.1.6.jar 为 
例 进 行 说 明 。 只 有 将 该 jar 文件 添加 到 CLASSPATH 环境 变量 中 ，Weka 才能 通过 JDBC 访 
问 MySQL 数据 库 。 

在 Windows 桌面 上 ， 右 击 “ 这 人 台电 脑 ” 图 标 ， 在 弹出 的 快捷 菜单 中 选择 “属性 ”菜单 
项 ， 在 新 窗口 左 部 选择 “高 级 系统 设置 ”选项 ， 打 开 “ 系 统 属性 ”对 话 框 ， 在 “高 级 ” 标 
签 页 下 单 击 “环境 变量 ”按钮 ， 打 开 “ 环 境 变量 ”对 话 框 。 根 据 计 算 机 是 仅 供 一 人 使 用 还 
是 多 人 使 用 ， 可 以 选择 将 环境 变量 设置 为 用 户 变量 还 是 系统 变量 。 如 果 不 知 道 该 设置 为 哪 
一 种 变量 ， 建 议 设置 为 用 户 变量 。 如 果 已 经 存在 CLASSPATH 环境 变量 ， 则 进行 编辑 ， 否 
则 ， 单 击 “ 新 建 ”按钮 进行 新 建 ， 按 照 图 1.21 所 示 输 入 变量 名 和 变量 值 。 


CLASSPATH 


|CAmysql-connector-java-5.1.6jar| 


1.21 设置 环境 变量 


如 果 用 户 的 jar 文件 名 称 或 路 径 与 本 书 不 同 ， 请 做 相应 修改 。 如 果 用 户 还 想 加 入 更 多 
的 jar 文件 ， 请 使 用 分 号 进行 分 割 。 

3. 使 用 UTF-8 数据 集 或 文件 

Java 本 来 就 支持 UTF-8 字符 集 ， 因 此 Weka 应 该 能 够 处 理 UTF-8 字符 集 的 数据 集 或 文 
件 ， 只 要 选择 合适 的 字符 集 即 可 。 在 Windows 平台 下 ，Weka 默认 使 用 另 一 种 字符 集 
Cp1252， 可 以 通过 以 下 方式 将 文件 编码 (file encoding) 改 为 “utf8”， 重 新 启动 就 能 支持 汉字 。 

如 果 直 接 在 命令 行 下 运行 Weka， 只 要 在 命令 行 中 添加 如 下 参数 : 


-Dfile.encoding=utf-8 


如 果 在 “开始 ”菜单 下 启动 Weka， 那 么 就 需要 修改 RunWeka.ini 文件 ， 步 又 如 下 。 

步骤 1 在 Weka 安装 目录 下 ， 找 到 RunWeka.ini 文件 ， 用 任意 文本 编辑 器 打开 该 文件 。 

步骤 2 在 第 32 行 附 近 ， 找 到 “fileEncoding=Cp1252” 行 ， 将 “Cp1252” 改 为 “utf- 
8”， 注 意 不 要 有 引号 ; 如 果 没 有 找到 这 一 行 ， 那 么 ， 找 到 所 有 的 java/javaw 命令 ， 在 这 些 
命令 行 中 添加 “-Dfile.encoding-utf-8” 参 数 。 

4. 常见 运行 错误 

1) OutOfMemoryException( 内 存 不 足 例外 ) 


大 多 数 Java 虚拟 机 只 分 配 一 定数 额 的 最 大 内 存 来 运行 Java 程序 ， 通 常 远 低 于 计算 机 
中 的 内 存 大 小 。 但 是 ， 可 以 通过 设置 适当 的 选项 来 扩展 虚拟 内 存 。 例 如 ， 可 以 用 命令 


java -Xmx512m ... 
设置 最 大 Java 堆 的 大 小 为 512MB。 还 可 以 使 用 Xmx28g 将 其 设置 为 2GB， 这 样 就 足够 使 
用 。 当 然 ， 这 还 要 看 计算 机 的 具体 配置 ， 设 置 过 大 的 内 存 会 影响 运行 性 能 。 
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2) StackOverflowError( 栈 溢出 错误 ) 
这 是 由 于 设置 的 堆栈 过 小 造成 的 错误 。 尝 试 增加 虚拟 机 的 堆栈 ， 可 以 使 用 下 面 的 命令 
来 增加 堆栈 空间 : 
java -Xss512k ... 
该 命令 设置 Java 的 最 大 堆栈 大 小 为 S12KB。 如 果 还 是 不 够 ， 请 慢 慢 增加 。 
3) training and test set are not compatible( 训 练 集 和 测试 集 不 兼容 ) 
Weka 假定 训练 集 和 测试 集 的 结构 应 该 完全 一 致 ， 这 意味 着 训练 集 和 测试 集 的 属性 不 
但 在 数量 上 相同 ， 而 且 在 类 型 上 也 应 该 完全 一 样 。 对 于 标 称 型 属性 ， 必 须 确保 标签 的 数量 
和 顺序 完全 一 致 。 
使 用 已 经 训练 好 的 分 类 器 进行 预测 ， 不 需要 包括 任何 分 类 属性 的 信息 。 出 于 速度 的 原 
因 ，Weka 不 执行 任何 有 关 数 据 集结 构 的 检查 ， 既 没有 将 属性 名 称 从 训练 空间 映射 到 测 
试 空间 ， 也 没有 映射 标签 。 在 内 部 ， 数 据 集 的 单行 表示 为 一 个 double 型 数组 。 对 于 数值 型 
属性 ， 这 并 不 构成 问题 ;但 对 于 其 他 类 型 的 属性 ， 如 标 称 型 属性 ，double 值 表示 可 用 标签 
列表 的 索引 ， 标 签 的 不 同 顺序 会 导致 不 同 的 标签 却 采 用 相同 的 索引 表示 ， 这 样 ， 预 测 就 不 
可 靠 。 
解决 办 法 是 使 用 批量 过 滤 (batch filtering)。 如 果 需 要 将 第 二 个 数据 集 (通常 为 测试 集 ) 处 
理 为 与 第 一 个 数据 集 (通常 为 训练 集 ) 具 有 相同 的 统计 数据 ， 那 么 就 使 用 批量 过 滤 。 
例如 ， 使 用 Standardize 过 滤器 分 别 对 两 个 数据 集 执行 标准 化 操作 ， 肯 定 会 创建 两 个 不 
同 的 标准 化 输出 文件 ， 因 为 如 果 数 据 集 不 同 ， 输 入 数据 就 不 同 ， 导 致 均值 和 标准 偏差 也 就 
不 同 。StringToWordVector 也 同样 会 产生 这 个 问题 ， 因 为 在 训练 集 和 测试 集中 单词 出 现 的 
次 数 不 同 ， 导 致 单词 词典 也 相应 改变 ， 从 而 输出 两 个 互 不 兼容 的 文件 。 
为 了 创建 兼容 的 训练 集 和 测试 集 ， 有 必要 使 用 批量 过 滤 。 启 用 批量 过 滤 ， 必 须 提供 额 
外 的 命令 行 参数 -b。 此 外 ， 第 一 个 输入 /输出 对 (-i-o) 初 始 化 过 滤器 的 统计 数据 ， 第 二 个 输 
入 /输出 对 (-w-s) 根 据 这 些 统计 数据 进行 处 理 。 
例如 ， 如 下 的 Java 调用 启用 批量 过 滤 : 
java weka.filters.unsupervised.attribute.Standardize \ 
二 
-i a \ 
-0 train std.arff \ 


-r test.arff \ 
-S test std.arff 


逮 注意 : ”上述 命令 是 适用 于 Linux/UNIX 的 bash， 反 儿 杠 表示 续 行 。 如 果 采 用 Windows 
或 Simple CLI， 需 要 去 掉 反 儿 杠 符号 ， 并 在 一 行内 写 全 命令 。 更 详细 的 命令 
解释 请 参见 本 书 第 5 章 。 


1.4 访问 数据 库 


虽然 Weka 数据 集 默 认可 以 保存 在 ARFF 格式 的 文件 中 ， 但 很 多 数据 挖掘 应 用 都 可 能 
要 求 直接 访问 数据 库 ， 对 数据 库 表 的 记录 进行 挖掘 ， 尤 其 是 在 数据 集 非 常 大 的 情况 下 。 


Weka 使 用 JDBC 访问 数据 库 。 


1.4.1 配置 文件 


首先 做 三 项 准备 工作 : 第 一 ， 如 果 Weka 正在 运行 ， 记 得 先 关 闭 Weka。 第 二 ， 下 载 数 
据 库 驱 动 。Weka 支持 大 部 分 常用 数据 库 ， 本 书 采用 的 数据 库 是 MySQL 5.6.12， 使 用 的 
JDBC 驱动 是 com.mysqljdbc.Driver， 因 此 本 书 下载 mysql-connector-java-5.1.6.jar 驱动 文 
件 ， 并 设置 CLASSPATH 环境 变量 指向 该 驱动 ， 如 图 1.21 所 示 ， 这 使 得 Weka 能 找到 JDBC 
驱动 。 第 三 ， 启 动 数据 库 运行 ， 确 保 已 经 建立 名 称 为 weka 的 数据 库 ， 为 该 库 建立 名 称 为 
weka 的 用 户 ， 密 码 自 定 ， 并 为 该 用 户 赋予 足够 的 权限 。 

要 正常 访问 数据 库 ， 根 据 计 算 机 的 实际 情况 正确 修改 配置 文件 是 关键 。Weka 的 配置 
文件 名 称 为 DatabaseUtils.props， 位 于 weka.experiment 包 中 。 可 以 从 wekajar 或 weka- 
srcjar 归档 文件 中 获取 该 配置 文件 。 具 体 做 法 是 ， 使 用 解压 缩 工具 将 归档 文件 解 开 ， 在 
weka\experiment 子 目录 下 可 以 找到 DatabaseUtils.props 配置 文件 。 本 书 直 接 在 该 配置 文件 
的 基础 上 进行 修改 。 

为 了 方便 用 户 ，Weka 对 常用 数据 库 都 提供 对 应 配置 文件 ， 在 对 应 配置 文件 上 进行 修 
改 要 方便 得 多 ， 有 具体 如 下 。 

(1) DatabaseUtils.props.hsql: 适用 于 HSQLDB 数据 库 。 

(2) DatabaseUtils.props.msaccess: 适用 于 MS Access 数据 库 。 

(3) DatabaseUtils.props.mssqlserver: 适用 于 MS SQL Server 2000 数据 库 。 

(4) DatabaseUtils.props.mssqlserver2005: 适用 于 MS SQL Server 2005 数据 库 。 

(5) DatabaseUtils.props.mysql: 适用 于 MySQL 数据 库 。 

(6) DatabaseUtils.props.odbc: 适用 于 ODBC/JDBC 桥 连接 的 数据 库 。 

(7) DatabaseUtils.props.oracle: 适用 于 Oracle 10g 数据 库 。 

(8) DatabaseUtils.props.postgresql: 适用 于 PostgreSQL 7.4 数据 库 。 

(9) DatabaseUtils.props.sqlite3: 适用 于 SQLite 3.x 数据 库 。 


狂 注意 :Weka 只 会 去 寻找 名 称 为 DatabaseUtils props 的 配置 文件 ， 如 果 用 户 想 以 其 余 
配置 文件 中 的 一 个 (如 DatabaseUtils.props.mysql) 作 为 模板 ， 在 此 基础 上 进行 
修改 ， 一 定 要 记 住 先 改 名 。 

打开 配置 文件 ， 在 文件 中 找到 如 程序 清单 1.2 所 示 的 内 容 。 注 意 到 粗 体 字 的 两 行 ， 分 

别 指定 了 连接 数据 库 必 需 的 两 个 参数 : jdbcDriver 和 jdbcURL。 


程序 清单 1.2 原 DatabaseUtils props 文件 内 容 


# The comma-separated list of jdbc drivers to use 

#jdbcDriver=Rmi Jdbc .RJDriver, jdbc.idbDriver 

#jdbcDriver=jdbc .idbDriver 

#jdbcDriver=Rmi Jdbc .RJDriver, jdbc.idbDriver, org.gjt.mm.mysql .Driver, com.mckoi. 
JDBCDriver, org.hsqldb.jdbcDriver 

#jdbcDriver=org.gjt.mm.mysql .Driver 
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# The url to the experiment database 
#jdbcURI=jdbc: rmi://expserver/jdbc:idb=experiments .prp 
jdbcURI=jdbc: idb=experiments .prp 
#jdbcURL=jdbc:mysql://mysqlserver/username 


本 书 使 用 MySQL， 因 此 将 程序 清单 1.2 所 示 的 粗 体 字 两 行 分 别 修改 为 如 下 两 行 : 

jdbcDriver=com.mysql .jdbc.Driver 

jdbcURI=jdbc:mysql://localhost:3306/weka 

如 果 读 者 使 用 不 同 的 数据 库 ， 或 者 使 用 不 同 的 端口 号 ， 请 根据 具体 的 数据 库 配 置 设置 
这 两 个 参数 。 

完成 DatabaseUtils.props 文件 的 设置 后 ， 必 须 将 其 放 在 如 下 三 个 固定 位 置 之 一 ，Weka 
才能 找到 。 

(1) 当前 目录 中 。 直 接 放 在 Weka 3.7 的 安装 目录 中 。 

(2) 用 户 目录 中 。 如 果 使 用 Windows 的 用 户 不 知道 自己 的 用 户 目录 ， 可 以 在 命令 行 中 
输入 如 下 命令 : 


echo %USERPROFILES 


这 样 就 可 以 得 到 用 户 目 录 的 路 径 。Weka 3.7.2 以 下 的 版 本 直接 将 配置 文件 放 在 用 户 目 
录 中 ， 而 Weka 3.7.2 以 上 的 版 本 则 需要 将 配置 文件 放 在 用 户 目录 下 的 wekafiles\props 子 目 
录 中 。 

(3) 类 路 径 中 。 通 常 是 weka.jar 文件 。 

冲 注意 :Weka 也 是 按 上 述 顺 序 去 查找 配置 文件 的 ， 找 到 后 就 不 再 进行 查找 ， 因 此 前 
面 位 置 优先 于 后 面 位 置 。 


1.4.2 ”数据 库 设置 


重新 启动 Weka， 在 Weka GUI 选择 器 窗口 中 ， 
单 击 Explorer 按钮 ， 启 动 探索 者 界面 ， 单 击 Open DB 
按钮 ， 弹 出 如 图 1.22 所 示 的 SQL 查看 器 。 可 以 看 
到 ，URL 文本 框 中 的 内 容 已 经 变 成 了 前 文 修改 的 配置 
文件 中 jdbcURL 的 值 。 

单 击 Eaa 按 钮 ， 设 置 数据 库 连 接 参数 ， 如 图 1.23 
所 示 。 根 据 自 己 计算 机 的 实际 配置 ， 输 入 数据 库 用 户 
名 和 密码 ， 单 击 OK 按钮 完成 设置 。 

单 击 EEE] 按 钮 ， 连 接 数据 库 ， 如 果 前 面 的 设置 无 
误 ， 会 在 SQL 查看 器 下 部 出 现 数据 库 已 连接 的 提 
示 ， 如 图 1.24 所 示 。 

将 iris 数据 集 导 入 到 名 称 为 iris 的 数据 库 表 中 ， 因 此 
只 需要 输入 SQL 语句 “SELECT * FROM iris”， 如 图 1.25 所 示 ， 单 击 Execute 按钮 执行 查 
询 ， 即 可 得 到 如 图 1.26 所 示 的 查询 结果 。 


图 1.25 输入 SQL 语句 图 1.26 查询 结果 
恭喜 ! 您 已 经 完成 了 较 难 的 工作 ， 从 数据 库 中 成 功 查询 到 了 数据 。 


1.4.3 ”常见 问题 及 解决 办 法 

如 果 读 者 没有 连接 上 数据 库 ， 不 要 着 急 。 可 以 按 如 下 顺序 依次 检查 可 能 产生 问题 的 设 
置 : 数据 库 驱 动 程序 是 否 正 确 ? CLASSPATH 的 设置 是 否 正确 ?配置 文件 中 jdbcDriver 和 
jdbcURL 两 项 配置 的 拼写 是 否 正确 ? 配置 文件 是 否 放 到 正确 位 置 ? 数据 库 用 户 名 和 密码 是 
否 正确 ? 该 数据 库 用 户 是 否 拥有 足够 权限 ? 数据 库 是 否 已 经 启动 ? 等 等 。 

由 于 Weka 仅 支 持 五 种 数据 类 型 的 属性 ， 即 标 称 型 mominal)、 数 值 型 aumeric)、 字 符 
串 型 (string)、 日 期 型 (date) 和 关系 型 relationaD)， 而 数据 库 种 类 繁多 ， 支 持 的 字段 类 型 也 不 
统一 ， 因 此 ， 表 1.2 中 仅 列 出 Weka 支持 的 通过 JDBC 将 数据 库 字 段 类 型 映射 到 的 Java 数 
据 类 型 ， 而 不 一 一 列举 所 支持 的 数据 库 字 段 类 型 。 


表 1.2 Weka 支持 的 Java 类 型 


Java 类 型 Java 方法 Weka 属性 类 型 版 本 
string getString() nominal 


boolean gooen0 | 1 | wom | 
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续 表 

Java 类 型 Java 方法 Weka 属性 类 型 版 本 
double getDouble() numeric 
byte getByte0) numeric 
short getByte0 numeric 
int getInteger() numeric 
long getLong() numeric 
float getFloat() numeric 

date getDate() date 
text getString() string »35.5 
time getTime() string >3.5.8 


有 时 ， 某 些 数据 库 ( 如 MySQL) 可 能 会 出 现 一 些 字段 类 型 不 能 解释 为 Weka 属性 类 型 的 
情况 ， 这 时 ， 就 需要 将 字段 类 型 映射 为 Weka 支持 的 Java 类 型 。 例 如 ，JDBC 驱动 会 将 
MySQL 的 TEXT 类 型 映射 为 BLOB 类 型 ， 需 要 在 配置 文件 中 手工 修改 映射 关系 。 在 表 1.2 
中 已 经 将 映射 关系 修改 为 映射 到 string 类 型 (0)， 可 以 在 配置 文件 中 找到 如 下 代码 行 : 


TEXT=0 


它 证 实 了 配置 文件 已 经 将 TEXT 类 型 映射 为 string 类 型 。 
特别 提示 ， 本 书 使 用 MySQL， 记 得 一 定 要 在 配置 文件 中 加 上 如 下 一 条 代码 行 : 


INT=5 


它 用 于 将 MySQL 的 INT 类 型 映射 为 numeric 类 型 。 否 则 在 运行 第 4 章 的 实验 时 ， 
Weka 会 报 出 “Unknown data type INT. Add entry in weka/experiment/DatabaseUtils.props” 的 


错误 。 


1.5 ”示例 数据 集 


Weka 自 带 25 个 ARFF 文件 作为 测试 用 示例 数据 集 ， 文 件 位 于 安装 目录 的 data 子 目 录 


下 ， 如 图 1.27 所 示 。 


1.27 ”Weka 自 带 数据 集 


One sin 
加 -omenechalerocarf 


限于 篇 幅 ， 这 里 仅 对 其 中 的 部 分 数据 集 进行 说 明 。 


1.5.1 天 气 问 题 


天 气 问 题 的 数据 集 很 小 ， 里 面 的 数据 纯 属 虚构 ， 只 是 为 了 用 来 说 明 机 器 学 习 的 方法 。 
该 数据 集 存放 在 Weka 安装 目录 的 data 子 目 录 下 ， 有 两 个 文件 weather.numeric.arff 和 
weather.nominal.arff， 前 者 有 两 个 属性 使 用 具体 的 连续 型 数值 ， 后 者 全 部 都 使 用 标 称 型 属 
性 。 天 气 数据 集 列举 了 在 何 种 天 气 条 件 下 可 以 进行 体育 运动 ， 数 据 集中 的 样本 由 五 个 属性 
值 来 表示 ， 通 过 测量 不 同 天 气 的 四 个 指标 得 到 样本 。 天 气 问 题 的 四 个 指标 是 : 天 气 趋势 
(outlook)、 温 度 (temperature)、 湿 度 (humidity) 和 刊 风 (windy)。 最 后 一 个 属性 表示 样本 的 类 
别 ， 即 在 四 个 天 气 指标 的 前 提 下 得 到 是 否 可 运动 (play) 的 结论 。 

天 气 问题 仅 有 14 个 样本 ， 表 1.3 是 天 气 问 题 的 简单 形式 ， 四 个 属性 和 一 个 目标 属性 都 
采用 标 称 符号 来 表示 ， 而 不 采用 具体 数值 。 其 中 ， 天 气 趋势 的 属性 值 分 别 为 sunny( 晴 )、 
overcast( 多 云 ) 和 rainy( 雨 ); 温度 的 属性 值 分 别 为 hot( 热 )、mild( 温 暖 ) 和 cool( 凉 爽 ); 湿度 的 
属性 值 分 别 为 high( 高 ) 和 normal( 正 常 ); 刊 风 的 属性 值 分 别 为 true( 真 ) 和 false( 假 ); 是 否 可 
运动 的 属性 值 分 别 为 yes( 是 ) 和 no( 否 )。 


表 1.3 weather.nominal.arff 的 天 气 数 据 
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天 气 趋势 温 度 湿 度 刮 风 是 否 可 运动 
(outlook) (temperature) (windy) (play) 
sunn hot | nigh | false no 
sunn hot true no 
OVercast hot | 一 省 乓 | false es 
Tain mild | am | false es 
Train cool false es 
raim cool | | true no 
Overcast cool true es 
sunnm mild | mm | false no 
sunn cool false es 
Tainy mild false yes 
SUnDY mild true yes, 
Overcast mild true yes 
Overcast hot false es 
Tain mild | -i | true Do 


机 器 学 习 的 一 个 目标 就 是 要 找 出 数据 的 内 在 关系 ， 本 例 中 ， 就 是 要 得 到 在 什么 天 气 情 
况 下 可 运动 的 规则 。 然 后 ， 根 据 这 个 规则 ， 对 给 定 的 新 的 天 气 情 况 ， 例 如 : 
outlook = sunny and humidity = high then play = ? 
给 出 是 否 可 运动 的 判断 。 
1.4 是 天 气 问 题 的 稍微 复杂 一 点 的 形式 。 其 中 ， 温 度 和 湿度 两 个 属性 的 数据 类 型 是 
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连续 的 数值 型 。 因 为 并 不 是 全 部 属性 都 是 数值 型 ， 因 此 称 为 混合 属性 问题 。 如 果 全 部 属性 
都 是 数值 型 ， 则 称 为 数值 属性 问题 。 


表 1.4 _ weathernumeric.arff 的 天 气 数 据 


天 气 趋势 温 度 湿 度 刮 风 是 否 可 运动 
(outlook) (temperature) (humidity) (windy) (play) 
sunnm 85 85 false no 
su g0 | % | me m 
Overcast 83 86 false yes 
rainy 70 96 false Yes 
Tainy 68 80 false yes 
Tain 65 70 true no 
Overcast 64 true es 
sunn 72 false no 
sunn 69 false es 
Tain: | ss0 | false es 
SUND 75 true es 
Overcast 72 | 90 | true es 
Overcast 81 false es 

Tain 71 | 9 | tme no 


显然 ， 如 果 包 含 了 数值 型 属性 ， 学 习 方 案 可 能 需要 对 此 类 属性 建立 不 等 式 ， 因 此 ， 得 
到 包含 数值 测试 的 规则 比较 复杂 。 


1.5.2 ” 葛 尾 花 


高 尾 花 是 高 尾 属 植物 ， 是 一 种 草本 开花 植物 的 统称 。 药 尾 花 只 有 三 枚 花 关 ， 其 余 外 围 
的 那 三 办 乃 是 保护 花蕾 的 花 苯 ， 只 是 由 于 这 三 枚 轨 状 花 葛 长 得 酷似 花 办 ， 以 致 常常 以 假 乱 
真 ， 令 人 难于 辨认 。 其 英文 名 iris 为 “彩虹 ”之 意 ， 暗 指 意 尾 花色 彩 绚丽 如 同 彩 虹 。iris 是 
非常 著名 的 用 于 模式 识别 的 数据 集 ， 该 数据 集 于 1936 年 由 RR. A. Fisher 创建 ，Fisher 的 论文 
也 成 为 经 典 ， 直 到 今天 还 经 常 被 引用 。 竟 尾 花 原始 数据 集 位 于 网 站 http://archive.ics.uci.edu/ 
ml/datasets/Iris。 网 站 由 美国 加 州 大 学 欧文 分 校 (University of California at Irvine，UCD 维 
护 ，UCI 数据 集 经 常用 作 比较 数据 挖掘 算法 的 基准 。 

意 尾 花 数 据 集 包 括 三 个 类 别 ， 即 Iris setosa( 山 高 尾 )、Iris versicolor( 变 色 意 尾 ): 和 Iris 
virginica( 维 吉 尼 亚 意 尾 )， 每 个 类 别 各 有 50 个 实例 。 数 据 集 定义 了 五 个 属性 : sepal 
length( 花 苯 长 )、sepal width( 花 苯 宽 )、petal length( 花 办 长 )、petal width( 花 办 宽 )、class( 类 
别 )。 最 后 一 个 属性 一 般 作为 类 别 属性 ， 其 余 属 性 都 是 数值 ， 单 位 为 cm( 厘 米 )。 

表 1.5 摘录 自 高 尾 花 数据 集 。 该 数据 集 就 是 要 根据 高 尾 花 的 花 莹 和 花瓣 数据 ， 找 出 不 
同类 别 花 的 特点 分 布 情况 ， 揭 示 出 其 中 隐藏 的 规律 性 。 


表 1.5 芝 尾 花 数据 集 


号 | 花束 长 /cm 花 汶 宽 /cm 类 别 
1 有 | 和 1.4 0.2 Iris setosa 
有 4.9 3.0 0.2 Iris setosa 
3 4.7 0.2 Iris setosa 
4 4.6 | 1.5 0.2 Iris setosa 
3 5.0 3.6 1.4 0.2 Iris setosa 
51 7.0 Ey 4.7 1.4 Iris versicolor 
3 6.4 3 4.5 1 Iris Versicolor 
53 6.9 4 5 Tris versicolor 
54 5 上 Iris versicolor 
55 6.5 15 Iris versicolor 


1.5.3. .CPU 


CPU 数据 集 的 属性 和 类 别 属性 都 是 数值 型 ， 训 练 目标 是 学 习 CPU 的 几 个 相关 属性 与 
其 处 理 能 力 的 关联 ， 总 共有 209 条 不 同 的 CPU 配置 。Weka 提供 两 个 数据 文件 ， 即 cpu.arff 


和 cpu.with.vendor.arff, 


厂商 。 


CPU 数据 集 如 表 1. 
MMAX 属性 分 别 是 主 存 


Iris virginica 
Iris virginica 
Iris virginica 


Iris virginica 


Iris virginica 


区 别 在 于 前 者 不 带 CPU 厂商 (vendon) 信 息 ， 后 者 的 第 一 个 属性 就 是 


6 所 示 。 其 中 ，MYCT 属性 代表 周期 时 间 ( 单 位 为 ns)，MMIN 和 
的 最 小 值 和 最 大 值 (单位 为 KB)，CACH 属性 是 高 速 缓存 Cache( 单 


位 为 KB)，CHMIN 和 CHMAX 属性 分 别 是 通道 数 (Channels) 的 最 小 值 和 最 大 值 ，class 属性 
是 体现 CPU 性 能 的 类 别 属性 。 


处 理 上 述 连续 数值 型 预测 值 的 传统 方式 是 线性 回 


性 之 和 ， 为 每 个 属性 加 上 适当 的 权重 。 例 如 : 


class = -56.075 + 0.0491 * MYCT + 0.0152 * MMIN + 0.0056 * MMRAX + 


0.6298 * CACH + 1.4599 * CHMAX 


归 ， 将 预测 结果 写 为 每 个 属性 值 的 线 
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表 1.6 CPU 性 能 数据 


序 号 | MYCTmns | MMIN/KB CHMAX class 
1 125 256 128 198 
29 8000 32 269 
3 29 8000 32 220 
4 29 8000 32 172 
5 29 8000 16 132 
208 480 512 8000 32 0 0 67 
209 480 1000 4000 0 0 0 45 
1.5.4 ”玻璃 数据 集 


玻璃 数据 集 的 全 称 为 玻璃 识别 数据 库 (Glass Identification Database)， 创 建 者 为 美国 法 


医科 学 服务 (U.S. Forensic Science Service) 的 B. German， 其 中 包含 七 种 类 型 的 玻璃 数据 。 玻 
璃 通过 其 折射 率 和 所 包含 的 化 学 元 素 进行 描述 ， 目 的 是 基于 这 些 特 征 对 不 同类 型 的 玻璃 进 


行 4 


分 类 。 该 数据 集 已 被 UCI 收集 ， 成 为 在 网 络 上 免费 提供 的 UCI 数据 集 。Weka 以 


glass.arff 文件 提供 该 数据 集 。 


数据 集中 的 实例 有 214 个 ， 全 部 属性 都 是 连续 数值 ， 属 性 加 上 类 别 属性 一 共 10 个 ， 


没有 缺失 值 。 


下 面 列 出 各 属性 信息 。 

(1) RI: 折射 率 (refractive index)。 

(2) Na: 钠 (sodium)( 测 量 单位 : 氧化 物 的 相对 重量 %， 与 属性 3) 一 (9) 相 同 )。 

(3) Mg: 镁 (magnesium)。 

(4) Al: 铝 (aluminum)。 

(5) Si: 硅 (silicon)。 

(6) KK: 钾 (potassium)。 

(7) Ca: 钙 (calcium)。 

(8) Ba: 钢 (barium)。 

(9) Fe: 铁 (iron)。 

(10) 玻璃 类 型 : (类别 属 性 )。 

e 1: building windows float processed( 浮 动 处 理 过 的 建筑 玻璃 )。 

e 2: building windows_non float processed( 未 浮动 处 理 的 建筑 玻璃 )。 

®e 3: vehicle windows float processed( 浮 动 处 理 过 的 车 用 玻璃 )。 

e@ 4: vehicle windows non float processed( 未 浮动 处 理 的 车 用 玻璃 )， 本 数据 库 未 
包含 。 

e 5: containers( 容 器 )。 

e ”6: tableware( 和 餐具 )。 

e 7: headlamps( 前 大 灯 )。 


1.5.5 “美国 国会 投票 记录 


现在 考虑 一 个 现实 世界 的 数据 集 vote.arff， 该 数据 集 收 集 了 1984 年 美国 国会 议员 投票 
信息 ， 原 始 数据 可 以 在 UCI 机 器 学 习 库 找到 ，Weka 自 带 该 数据 集 以 供 研究 。 数 据 集中 包 
括 435 个 实例 ， 每 个 实例 是 一 个 国会 议员 的 信息 ， 其 中 有 267 名 民主 党 及 168 名 共和 党 。 
全 部 属性 都 是 二 元 属性 ， 总 共有 16 个 属性 ， 外 加 他 们 的 党 派 作为 类 别 属性 。 

属性 信息 如 下 。 

(1) Class Name( 类 别名 称 ): 2(democrat 民主 党 , republican 共和 党 )。 

(2) handicapped-infants( 残 疾 婴 幼儿 ): 2(y,n)。 

(3) water-project-cost-sharing( 水 项 目的 费用 分 摊 ): 2(y,n)。 

(4) adoption-of-the-budget-resolution( 采 纳 预算 决议 ): 2(y,n)。 

(5) physician-fee-freeze( 冻 结 医疗 费 ): 2(y,n)。 

(6) el-salvador-aid(EL- 萨 尔 瓦 多 援助 ): 2(y,n)。 

(7) religious-groups-in-schools( 学 校 的 宗教 群体 ): 2(y,n)。 

(8) anti-satellite-test-ban( 反 卫星 试验 禁令 ):; 2(y,n)。 

(9) aid-to-nicaraguan-contras( 援 助 尼加拉瓜 反 政 府 ): 2(y,n)。 

(10) mx-missile( 洲 际 弹 道 导弹 ): 2(y,n)。 

(11) immigration( 移 民 ): 2(y,n)。 

(12) synfuels-corporation-cutback( 削 减 合成 燃料 公司 ): 2(y.n)。 

(13) education-spending( 教 育 支出 ): 2(y,n)。 

(14) superfund-right-to-sue( 超 级 基金 的 诉讼 权利 ): 2(y.n)。 

(15) crime( 犯 罪 ): 2(y.n)。 

(16) duty-free-exports( 出 口 免税 ): 2(y,n)。 

(17) export-administration-act-south-africa( 南 非 出 口 管 理 法 案 ): 2(y,n)。 


还 注意 :该 数据 集中 带 有 一 些 缺 失 值 ， 使 用 “?” 来 表示 。 


1.5.6 乳腺 癌 数 据 集 


本 乳腺 癌 数 据 集 不 是 从 UCI 获得 ， 而 是 从 南斯拉夫 卢布 尔 雅 那 大 学 医疗 中 心 乳腺 癌 肿 
瘤 研究 所 获得 ， 提 供 者 为 M. Zwitter 和 M. Soklic。 

数据 集中 一 共有 286 个 实例 ，9 个 属性 外 加 1 个 类 别 属性 。 属 性 信息 如 下 。 

(1) Class( 是 否 复发 ， 类 别 属 性 ): no-recurrence-events( 无 复发 )，recurrence-events( 复 发 )。 

(2) age( 年 龄 ); 10-19，20-29，30-39，40-49，50-59，60-69，70-79，80-89，90-99。 

(3) menopause( 绝 经 ): lt40( 小 于 40 岁 )，ge40( 大 于 等 于 40 岁 )，premeno( 未 绝经 )。 


(4) tumor-size( 肿 瘤 大 小 ): 0-4，5-9，10-14，15-19，20-24，25-29，30-34，35-39，40- 


44，45-49，50-54，55-59。 
(5) inv-nodes( 受 侵 淋 巴结 数 ): 0-2，3-5，6-8，9-11，12-14，15-17，18-20，21-23， 
24-26，27-29，30-32，33-35，36-39。 
(6) node-caps( 有 无 结 节 帽 ): yes( 有 )，no( 无 )。 


淆 党 eM 坝 1 小 入 I 


O@« 


和 < 


数据 挖掘 三 机 器 学 习 


一 WEKAR 


(7) deg-malig( 肿 瘤 恶 性 程度 ): 1，2，3。 

(8) breast( 肿 块 位 置 )，left( 左 )，right( 右 )。 

(9) breast-quad( 肿 块 所 在 象限 ): left-up( 左 上 )，left-low( 左 下 )，right-up( 右 上 )，right- 
low( 右 下 )，central( 中 部 )。 

(10) irradiat( 是 否 放疗 ): yes( 是 )，no( 否 )。 

数据 集中 ，node-caps 和 breast-quad 属性 有 缺失 值 ，node-caps 属性 有 8 个 缺失 值 ， 
breast-quad 属性 有 1 个 缺失 值 ， 缺 失 值 都 用 “?” 表 示 。 

类 别 属性 的 分 布 为 : 201 个 实例 无 复发 ，85 个 实例 复发 。 
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1.1 Weka 的 主要 界面 有 哪儿 个 ? 各 有 什么 用 途 ? 

1.2 什么 是 数据 挖掘 ? 什么 是 机 器 学 习 ? 它们 之 间 有 什么 联系 ? 
1.3 ”属性 可 以 分 为 哪 几 种 类 型 ? 

1.4 分 类 的 功能 是 什么 ? 为 什么 Weka 要 将 分 类 和 回归 放 在 一 起 ? 
1.5 有 监督 学 习 和 无 监督 学 习 的 区 别 在 哪里 ? 

1.6 ” 聚 类 的 功能 是 什么 ? 

1.7 关联 分 析 有 什么 用 途 ? 

1.8 Weka 的 包 管理 器 有 什么 作用 ? 

1.9 配置 Weka， 使 其 能 够 访问 自己 本 地 计算 机 上 的 数据 库 。 

1.10 使 用 任意 文本 编辑 器 查看 Weka 自 带 的 其 他 示例 数据 集 。 


Y 
@ 第 2 半 
探索 者 界面 


探索 者 (Explorer) 界 面 是 Weka 的 主要 图 形 用 户 界 面 ， 其 全 部 功能 都 可 

过 菜单 选择 或 表单 填写 进行 访问 。 本 章 介 绍 探索 者 的 图 形 用 户 界面 、 预 

处 理 、 分 类 、 聚 类 、 关 联 、 选 择 属性 和 可 视 化 等 内 容 ， 内 容 非 常 丰 富 ， 学 
这 些 知识 可 以 全 面 了 解 Weka 的 功能 ， 快 速 上 手 实际 的 挖 握 任务 。 


数据 挖掘 与 机 器 学 习 


一 一 WEKA 应 


2.1 图 形 用 户 界面 


启动 Weka GUI 选择 器 窗口 之 后 ， 单 击 Explorer 按钮 ， 即 可 启动 探索 者 界面 。 这 时 ， 
由 于 没有 加 载 数 据 集 ， 除 Preprocess 标签 页 外 ， 其 他 标签 页 都 变 灰 而 不 可 用 。 可 以 使 用 
Open file、Open URL、Open DB 或 者 Generate 按钮 加 载 或 产生 数据 集 ， 加 载 数据 集 之 后 ， 
其 他 标签 页 才 可 以 使 用 。 

这 里 以 打开 文件 为 例 进行 说 明 。 单 击 Open file 按钮 ， 通 过 弹出 的 “打开 ”对 话 框 ， 选 
择 打开 data 子 目 录 下 的 iris.arff 文件 ， 加 载 数据 集 后 的 探索 者 界面 如 图 2.1 所 示 。 


图 2.1 探索 者 界面 
下 面 按照 先 整体 后 局 部 的 顺序 介绍 图 形 用 户 界面 。 


2.1.1 标签 页 简介 


图 2.1 所 示 界 面 的 项 部 有 六 个 不 同 的 标签 页 ， 分 别 对 应 Weka 所 支持 的 多 种 数据 挖掘 
太 式 。 

这 六 个 标签 页 的 介绍 如 下 。 

(1) Preprocess( 预 处 理 ): 选择 数据 集 ， 并 以 不 同方 式 对 其 进行 修改 。 

(2) Classify( 分 类 ): 训练 用 于 分 类 或 回归 的 学 习 方 案 ， 并 对 其 进行 评估 。 

(3) Cluster( 聚 类 ): 学 习 数据 集聚 类 方案 。 

(4) Associate( 关 联 ): 学 习 数据 关联 规则 ， 并 对 其 进行 评估 。 

(5) Select attributes( 选 择 属性 ): 选择 数据 集中 预测 效果 最 好 的 部 分 属性 。 

(6) Visualize( 可 视 化 ): 查看 不 同 的 二 维 数据 散 点 图 ， 并 与 其 进行 互动 。 

每 个 标签 页 都 可 完成 不 同 工 作 ， 单 击 相应 的 标签 即 可 实现 标签 页 的 切换 。 


Oc« 


界面 底部 包括 Status( 状 态 ) 栏 、Log( 日 志 ) 按 钮 和 一 只 Weka 岛 ， 这 些 都 一 直 保持 可 
见 ， 不 论 用 户 切换 到 哪 一 个 标签 页 。 


2.1.2 ”状态 栏 


状态 栏 位 于 界面 最 下 部 ， 可 以 让 用 户 了 解 到 现在 进行 到 哪 一 步 。 例 如 ， 如 果 Weka 探 
索 者 正在 忙于 加 载 数据 文件 ， 状 态 栏 中 会 显示 相应 的 状态 信息 。 

除了 显示 状态 之 外 ， 还 可 以 右 击 鼠 标 来 显示 内 存 信息 ， 以 及 运行 垃圾 回收 器 以 清理 内 
存 。 在 状态 栏 的 任意 位 置 右 击 ， 弹 出 的 快捷 菜单 中 只 包括 两 个 菜单 项 : Memory 
information( 内 存 信息 ) 和 Run garbage collector( 运 行 垃圾 回收 器 )。 第 一 个 菜单 项 用 于 显示 
Weka 当前 可 用 的 内 存 空间 ; 第 二 个 菜单 项 用 于 启动 Java 垃圾 回收 器 ， 搜 寻 不 再 使 用 的 内 
存 并 释放 ， 以 回收 部 分 内 存 空间 ， 提 供给 新 的 任务 使 用 。 需 要 指出 的 是 ， 垃 圾 回收 器 是 一 
个 不 间断 运行 的 后 台 任务 ， 如 果 不 强制 进行 垃圾 回收 ，Java 虚拟 机 也 会 在 适当 时 候 自动 启 
动 垃圾 回收 器 。 

Log 按钮 位 于 状态 栏 的 右面 ， 单 击 该 按钮 会 打开 可 以 滚动 的 日 志 窗口 ， 显 示 在 此 次 运 
行 期 间 内 Weka 进行 的 全 部 活动 以 及 每 项 活动 的 时 间 戳 。 不 管 是 使 用 GUI、 命 令 行 还 是 
Simple CLI， 日 志 都 会 包含 分 类 、 聚 类 、 属 性 选择 等 操作 的 完整 的 设置 字符 串 ， 用 户 可 以 
进行 复制 和 粘贴 操作 。 顺 便 提醒 读者 ， 通 过 学 习 日 志 里 记录 的 命令 ， 可 以 深层 次 地 了 解 
Weka 的 内 部 运行 机 制 。 

在 Log 按钮 的 右边 ， 可 以 看 到 被 称 为 Weka 状态 图 标的 鸟 。 如 果 没 有 处 理 过 程 在 运 
行 ， 小 鸟 会 坐 下 来 打 个 上 师 。“x” 符 号 旁边 的 数字 显示 目前 有 多 少 个 正在 进行 处 理 的 进 
程 ， 当 系统 空 亲 时 ， 该 数字 为 零 ， 数 字 会 随 着 正在 进行 处 理 进程 数 的 增加 而 增加 。 当 启动 
处 理 进程 时 ， 小 鸟 会 站 起 来 不 停 走 动 。 如 果 小 鸟 长 时 间 站 着 不 动 ， 说 明 Weka 出 现 运行 错 
误 ， 此 时 用 户 需 要 关闭 并 重新 启动 探索 者 界面 。 


2.1.3 图像 输出 


Weka 中 显示 的 大 部 分 图 形 ， 包 括 本 章 的 探索 者 界面 和 后 面 章节 的 知识 流 界面 、 实 验 
者 界面 显示 的 图 形 ， 以 及 通过 Weka GUI 选择 器 菜单 带 出 的 GraphVisualizer( 图 可 视 化 工具 ) 
或 TreeVisualizer( 树 可 视 化 工具 ) 显 示 的 图 形 ， 都 可 以 保存 为 图 像 文 件 以 备 将 来 使 用 。 保 存 
方法 是 ， 在 按 住 Alt 键 和 Shift 键 的 同时 ， 在 要 保存 的 图 形 上 单 击 ， 启 动 保存 文件 对 话 框 。 
Weka 支持 的 图 像 文 件 格式 有 BMP、JPEG、PNG 和 Postscript 的 EPS， 用 户 可 以 选择 图 像 
文件 格式 ， 还 可 以 修改 输出 图 像 文 件 的 尺寸 。 


2.1.4 手把手 教 你 用 


1. 启动 Weka 


双击 桌面 上 的 Weka 3.7 快捷 方式 ， 启 动 Weka GUI 选择 器 窗口 ， 如 图 2.2 所 示 。 
单 击 Explorer 按钮 启动 探索 者 界面 ， 如 图 2.3 所 示 。 现 在 ， 除 Preprocess 标签 页 可 用 
外 ， 其 余 标签 页 都 不 可 用 。 
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图 2.3 探索 者 界面 
2. 了 解 标签 页 


单 击 图 2.3 所 示 界 面 中 的 Open file 按钮 ， 弹 出 “打开 ”对 话 框 ， 导 航 至 Weka 安装 目 
录 下 的 data 子 目录 ， 选 择 iris.arff 文件， 如 图 2.4 所 示 。 单 击 “ 打 开 ” 按 钮 ， 打 开 该 文件 。 
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图 2.4 “打开 ”对 话 框 


打开 文件 (或 称 为 加 载 数据 ) 后 的 探索 者 界面 如 图 2.5 所 示 。 可 以 看 到 ， 加 载 数据 后 ， 六 
个 标签 页 都 变 为 可 用 状态 。 


图 2.5 打开 文件 后 的 探索 者 界面 
读者 可 以 自行 切换 标签 页 ， 初 步 了 解 各 标签 页 的 功能 ， 为 后 续 学 习 打下 基础 。 
3. 了 解 状态 栏 


不 论 切 换 到 哪个 标签 页 ， 都 可 在 探索 者 界面 下 部 的 状态 栏 中 查看 状态 信息 。 在 状态 栏 
任意 位 置 右 击 ， 在 弹出 的 快捷 菜单 中 选择 Memory information 菜单 项 ， 状 态 栏 显示 用 斜 杠 
分 割 的 内 存 信息 ， 格 式 为 : 空闲 内 存 /全 部 内 存 / 最 大 内 存 ， 单 位 是 字 节 ， 如 图 2.6 所 示 。 


sea 
err [sefeetslass ) in bytes; 62. 143,432 / 98,080, 294 / 165. 7 4 we 


2.6 内存 信息 


如 果 在 快捷 菜单 中 选择 Run garbage collector 菜单 项 ， 状 态 栏 中 会 显示 OK 信息 ， 表 示 
已 经 启动 了 垃圾 回收 器 ， 如 图 2.7 所 示 。 
二 有 
图 2.7 运行 垃圾 回收 器 


单 击 状态 栏 右边 的 Log 按钮 ， 可 以 查看 当前 日 志 ， 如 图 2.8 所 示 。 


10:57:28: Weka Explorer 


图 2.8 日 志 窗 口 
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4. 保存 图 像 文 件 


单 击 图 2.5 所 示 界 面 右边 的 Visualize All( 全 部 可 视 化 ) 按 钮 ， 打 开 如 图 2.9 所 示 的 全 部 
可 视 化 窗口 。 


图 2.9 全 部 可 视 化 窗口 
同时 按 住 Alt 键 和 Shift 键 ， 并 在 图 2.9 所 示 的 五 幅 图 标 中 任 选 一 图 标 ， 在 图 标的 任意 
位 置 单 击 ， 启 动 Save as 对 话 框 。 设 置 “ 文 件 名 ”为 test， 选 择 “ 文 件 类 型 ”为 jpg( 或 其 他 
格式 )， 单 击 “ 保 存 ” 按 钮 ， 就 可 将 其 保存 为 图 像 文件 ， 如 图 2.10 所 示 。 


图 2.10 Save as 对 话 框 


在 图 2.10 的 右边 ， 还 可 以 定制 图 像 文件 的 长 、 宽 尺寸 ， 单 位 为 像素 。 选 中 Use custom 
dimensions( 使 用 自 定义 尺寸 ) 复 选 框 ， 就 可 以 设置 图 像 尺 寸 。 如 果 选 中 Keep aspect ratio( 保 
持 宽 高 比 ) 复 选 框 ， 则 在 修改 图 像 长 (或 宽 ) 的 同时 ， 会 按 比 例 自动 缩放 宽 (或 长 )。 


22 预 处 理 


Preprocess 标签 页 可 用 于 从 文件 、URL 或 数据 库 中 加 载 数据 集 ， 并 且 根 据 应 用 要 求 或 
领域 知识 过 滤 掉 不 需要 进行 处 理 或 不 符合 要 求 的 数据 。 


2.2.1 ”加 载 数据 
Preprocess 标签 页 中 顶部 的 前 四 个 按钮 可 以 让 用 户 将 数据 加 载 到 Weka 系统 。Open file 


按钮 用 于 启动 “打开 ”对 话 框 ， 用 户 可 以 浏览 本 地 文件 系统 ， 打 开本 地 数据 文件 。Open 
URL 按钮 要 求 用 户 提 供 一 个 URL 地 址 ，Weka 使 用 HTTP 协议 从 网 络 位 置 下 载 数据 文件 。 
Open DB 按钮 用 于 从 数据 库 中 读 取 数据 ， 支 持 所 有 能 够 用 JDBC 驱动 程序 读 取 的 数据 库 ， 
使 用 SQL 语句 或 存储 过 程 读 取 数 据 表 。 注 意 ， 必 须根 据 自己 的 计算 机 环境 配置 ， 相 应 修改 
wekavexperiment\DatabaseUtils props 配置 文件 后 才能 访问 数据 库 ， 有 具体 参见 1.4 节 内 容 。 
Generate 按钮 用 于 让 用 户 使 用 不 同 的 DataGenerators( 数 据 生成 器 ) 生 成 人 工 数据 ， 适 用 于 分 
类 功能 的 人 工 数 据 可 以 由 决策 列表 RDG1、 径 向 基 函 数 网 络 RandomRBF 、 贝 叶 斯 网 络 
BayesNet、LED24 等 算法 产生 ， 人 工 回 归 数 据 也 可 以 根据 数学 表达 式 生成 ， 用 于 聚 类 的 人 
工 数据 可 以 使 用 现成 的 生成 算法 产生 。 

使 用 Open file 按钮 ， 可 以 读 取 多 种 数据 格式 的 文件 ， 包 括 Weka ARFF 格式 、C4.5 数 
据 格式 、CSV 格式 、JSON 实例 文件 格式 、LibSVM 数据 文件 格式 、Matlab ASCII 文件 格 
式 、svm 轻 量 级 数据 文件 格式 、XRFF 格式 ， 以 及 序列 化 实例 的 格式 。 其 中 ，ARFF 格式 
的 后 级 为 .arff，C4.5 数据 格式 的 后 缀 为 .data 或 .names，CSYV 格式 的 后 级 为 .csv，JSON 实例 
文件 格式 的 后 级 为 json，LibSVM 数据 文件 格式 的 后 级 为 .Jibsvm，Matlab ASCII 文件 格式 
的 后 级 为 .m，svm 轻 量 级 数据 文件 格式 的 后 缀 为 .dat，XRFF 格式 的 后 缀 为 .xrff， 序 列 化 
实例 对 象 文件 的 后 绥 为 .bsi。 有 的 格式 后 缀 还 会 加 上 .gz， 这 代表 对 应 文件 的 压缩 形式 。 

另外 ， 使 用 Save( 保 存 ) 按 钮 ， 可 以 将 已 加 载 的 数据 保存 为 Weka 支持 的 文件 格式 。 该 
功能 特别 适合 在 不 同文 件 格式 之 间 进 行 转换 ， 以 及 学 习 Weka 文件 格式 的 细节 。 

由 于 存在 多 种 数据 格式 ， 为 了 从 不 同 种 类 的 数据 源 中 导入 数据 ，Weka 提供 实用 工具 
类 进行 转换 ， 这 种 工具 称 为 转换 器 (converters)， 位 于 weka.core.converters 包 中 。 按 照 功能 
的 不 同 ， 转 换 器 分 为 加 载 器 和 保存 器 ， 前 者 的 Java 类 名 以 Loader 结束 ， 后 者 以 Saver 结束 。 

加 载 数据 后 ，Preprocess 标签 页 会 在 Current relation( 当 前 关系 ) 选 项 组 中 显示 当前 数据 
集 的 一 些 总 结 信息 。Relation( 关 系 ) 栏 显示 关系 名 称 ， 该 名 称 由 加 载 的 文件 给 定 ; 
Attributes( 属 性 ) 栏 显示 数据 集中 的 属性 (或 特征 ) 个 数 ，Instances( 实 例 ) 栏 显示 数据 集中 的 实 
例 (或 数据 点 /记录 ) 个 数 ，Sum of weights( 权 重 和 ) 栏 显示 全 部 实例 的 权重 之 和 。 例 如 ， 当 加 
载 iris 数据 集 后 ，Current relation 选项 组 中 显示 关系 名 称 为 iris， 属 性 个 数 为 5， 实 例 个 数 
为 150， 权 重 和 为 150， 如 图 2.11 所 示 。 


Corrent relation 
Relation: iris Attributes: 5 
Instances: 150 Sun of weights: 150 


图 2.11 Current relation 选项 组 


Weka 根据 文件 后 绥 调 用 不 同 的 转换 器 来 加 载 数据 集 。 如 果 Weka 无 法 加 载 数据 ， 就 会 
尝试 以 ARFF 格式 解释 数据 ， 如 果 再 次 失败 ， 就 会 弹出 如 图 2.12 所 示 的 提示 对 话 框 ， 提 示 
Weka 无 法 自行 决定 使 用 哪 一 个 文件 加 载 器 ， 需 要 用 户 自 己 来 选择 。 

单 击 图 2.12 中 的 “确定 ”按钮 后 ， 会 弹出 如 图 2.13 所 示 的 通用 对 象 编辑 器 对 话 框 ， 
让 用 户 选择 能 打开 数据 文件 的 对 应 转换 器 。 默 认 转 换 器 为 CSVLoader， 该 转换 器 专门 用 于 
加 载 后 缀 为 .csv 的 文件 。 如 果 用 户 已 经 确定 数据 文件 格式 是 CSV 格式 ， 那 么 可 以 输入 日 期 
格式 、 字 段 分 割 符 等 信息 。 如 果 对 对 话 框 里 的 各 选项 不 了 解 ， 可 以 单 击 More 按钮 查看 使 
用 说 明 。 
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&@ Cannot determine file loader automatically, please choose one. 


图 2.12 加载 数 据 失败 


如 果 用 户 已 经 知道 数据 文件 格式 不 是 CSV 格式 ， 可 以 单 击 通用 对 象 编辑 器 对 话 框 上 
部 的 Choose 按钮 选择 其 他 的 转换 器 ， 如 图 2.14 所 示 。 
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图 2.13 通用 对 象 编辑 器 对 话 框 图 2.14 选择 转换 器 


2.14 所 示 对 话 框 中 ， 第 一 个 选项 是 ArffLoader， 选 择 该 选项 并 成 功 的 可 能 性 很 小 ， 
因为 默认 就 是 使 用 它 来 加 载 数 据 集 ， 没 有 成 功 才 会 弹出 加 载 数据 失败 的 提示 对 话 框 。 第 二 
个 选项 是 C45Loader，C4.5 格式 的 数据 集 由 两 个 文件 共同 构成 ， 一 个 文件 Cnames) 提 供 字段 
名 ， 另 一 个 文件 (.data) 提 供 实际 数据 。 第 三 个 选项 是 默认 的 CSVLoader， 这 是 一 种 以 逗号 
分 隔 各 属性 的 文件 格式 ， 前 文 已 经 介绍 了 这 种 数据 转换 器 。 第 四 个 选项 DatabaseLoader 是 
从 数据 库 ， 而 不 是 文件 中 读 取 数 据 集 。 然 而 ， 使 用 第 1 章 介 绍 的 SQLViewer 工具 来 访问 数 
据 库 ， 是 更 为 人 性 化 且 方 便 的 方案 。SerializedInstancesLoader 选项 用 于 重新 加 载 以 前 作为 
Java 序列 化 对 象 保存 的 数据 集 。 任 何 Java 对 象 都 可 以 采用 这 种 格式 予以 保存 并 重新 加 载 。 
由 于 序列 化 对 象 本 身 就 是 Java 格式 ， 使 用 它 可 能 比 加 载 ARFF 文件 的 速度 更 快 ， 这 是 因为 
加 载 ARFF 文件 时 必须 对 其 进行 分 析 和 检查 ， 从 而 花费 更 多 的 时 间 。 如 果 需 要 多 次 加 载 大 
数据 集 ， 则 很 值得 以 这 种 数据 格式 进行 保存 。 

值得 一 提 的 是 TextDirectoryLoader 加 载 器 ， 它 的 功能 是 导入 一 个 目录 ， 目 录 中 包含 若 
干 以 文本 挖掘 为 目的 的 纯 文 本 文件 。 导 入 目录 应 该 有 特定 的 结构 一 一 一 组 子 目 录 ， 每 个 子 
目录 包含 一 个 或 多 个 扩展 名 为 .txt 的 文本 文件 ， 每 个 文本 文件 都 会 成 为 数据 集中 的 一 个 实 
例 ， 其 中 ， 一 个 字符 串 型 属性 保存 该 文件 的 内 容 ， 一 个 标 称 型 的 类 别 属 性 保存 文件 所 在 的 
子 目 录 名 称 。 该 数据 集 可 以 通过 使 用 StringToWordVector 过 滤器 进一步 加 工 为 词典 ， 为 后 
看 的 文本 挖掘 做 准备 。 


2.2.2 属性 处 理 


在 Current relation 选项 组 下 方 ， 可 以 看 到 Attributes( 属 性 ) 选 项 组 ， 该 选项 组 上 部 有 四 
个 按钮 ， 中 部 是 一 个 三 列 多 行 的 表格 ， 下 部 有 一 个 Remove 按钮 ， 如 图 2.15 所 示 。 


Attributes 


i i nl 


2.15 ”Attributes 选项 组 


表格 有 三 列表 头 ， 包 括 No.( 序 号 ) 列 、 复 选 框 列 和 “Name( 名 字 ) 列 。 其 中 ， 序 号 列 用 于 
标识 指定 数据 集中 的 属性 序号 ， 复 选 框 列 用 于 选择 属性 ， 以 便 对 其 进行 操作 ， 名 字 列 显示 
属性 名 称 ， 这 些 名 称 与 数据 文件 的 属性 声明 一 致 。 

表格 里 每 行 表示 一 个 属性 ， 单 击 某 一 行 的 复 选 框 选 中 该 行 ， 再 单 击 一 次 则 取消 选中 。 
表格 上 方 的 四 个 按钮 也 可 以 用 于 改变 选中 状态 : All 按钮 使 全 部 复 选 框 都 选中 ， 即 选中 全 
部 属性 ， None 按钮 使 全 部 复 选 框 都 取消 选中 ， 即 不 选中 任何 属性 ，Invert 按钮 反选 ， 即 取 
消 选中 已 经 选中 的 复 选 框 ， 选 中 没有 选中 的 复 选 框 ，Pattern 按钮 使 用 Perl 5 正则 表达 式 指 
定 要 选中 的 属性 ， 例 如 ，“.*_ id” 选择 满足 属性 名 称 以 id 结束 的 全 部 属性 。 

一 旦 已 经 选中 所 需 的 属性 ， 就 可 以 单 击 属性 列表 下 方 的 Remove 按钮 将 它们 去 除 ， 本 
功能 用 于 去 除 无 关 属 性 。 注 意 ， 本 功能 仅 去 除 内 存 中 的 数据 集 ， 不 会 更 改 数 据 文件 的 内 
容 。 另 外 ， 属 性 去 除 之 后 还 可 以 单 击 Undo 按钮 进行 撤销 ，Undo 按钮 位 于 Preprocess 标 
签 页 的 上 部 。 

如 果 选 中 某 一 个 属性 ， 例 如 ， 选 中 图 2.15 中 名 称 为 sepallength 的 属性 ， 该 行 的 颜色 就 
会 变 为 蓝 色 ， 并 且 右 边 的 Selected attribute( 已 选择 属性 ) 选 项 组 中 将 显示 选中 属性 的 一 些 信 
息 。 图 2.16 和 图 2.17 所 示 分 别 为 选中 数值 型 属性 和 标 称 型 属性 的 显示 结果 。 


Selected attribute 
Selected attribute 
Jime: outlook Type: Joninal 
] Missing: 0 OX) Distinct: 3 Vnigue: 0 (0%) 
| Lb Count Neight 
lswey _ 5 上 
2 lovercast 和 140 J 
| 3|rainy 5 so 
] [ 
2.16 选中 数值 型 属性 的 显示 结果 图 2.17 选中 标 称 型 属性 的 显示 结果 


其 中 ，Name 栏 显示 属性 的 名 称 ， 与 属性 表格 中 选中 属性 的 名 称 相同 ， Type 栏 显示 属 
性 的 类 型 ， 最 常见 的 是 标 称 型 和 数值 型 ，Missing( 缺 失 ) 栏 显示 数据 集中 该 属性 不 存在 或 未 
指定 的 实例 的 数量 及 百分比 : Distinct( 不 同 ) 栏 显示 该 属性 取 不 同 值 的 数量 ，Unique( 唯 一 ) 
栏 显示 没有 任何 其 他 实例 拥有 该 属性 值 的 数量 及 百分比 。 

Selected attribute 选项 组 的 下 部 有 一 个 统计 表格 ， 显 示 该 属性 值 的 更 多 信息 ， 根 据 属性 
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类 型 的 不 同 ， 表 格 会 有 所 差别 ， 从 图 2.16 和 图 2.17 中 可 以 看 到 这 一 点 。 如 果 属 性 是 数值 
型 ， 表 格 显示 数据 分 布 的 四 种 统计 描述 ， 即 Minimum( 最 小 值 )、Maximum( 最 大 值 )、 
Mean( 平 均值 ) 和 StdDev(Standard Deviation， 标 准 偏差 或 标准 差 )。 如 果 属 性 是 标 称 型 ， 表 
格 中 显示 : No.( 编 号 )， 表 示 属 性 的 全 部 可 能 取 值 ，Label( 标 签 )， 表 示 属 性 值 名 称 ; 
Count( 数 量 )， 表 示 拥 有 该 属性 值 的 实例 数量 :Weight( 权 重 )， 表 示 拥 有 该 属性 值 的 实例 
权重 。 

在 统计 表格 下 方 会 显示 一 个 彩色 直方 图 ， 如 图 2.18 所 示 。 直 方 图 上 部 有 一 个 下 拉 列 表 
框 ， 用 于 选择 类 别 属性 。 图 2.18 中 选择 的 类 别 属性 是 class， 三 种 颜色 代表 三 种 不 同类 别 
的 六 尾 花 ， 横 坐标 表示 当前 属性 (sepallengtb) 的 取 值 。 注 意 ， 只 有 标 称 型 的 类 别 属性 才 会 有 
彩色 编码 。 单 击 右边 的 Visualize All 按钮 ， 会 弹出 一 个 单独 的 窗口 ， 显 示 所 有 属性 的 直方 
图 ， 如 前 面 的 图 2.9 所 示 。 
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图 2.18 彩色 直方 图 


2.2.3 ”过 滤器 


Preprocess 标签 页 允许 定义 并 执行 以 各 种 方式 转换 数据 的 过 滤器 ， 过 滤器 也 称 为 筛选 
器 。 在 Filter 选项 组 中 有 一 个 Choose( 选 择 ) 按 钮 ， 单 击 该 按钮 可 以 选择 一 个 过 滤器 ， 如 
图 2.19 所 示 。 按 钮 的 右 侧 是 过 滤器 文本 框 ， 用 于 设置 所 选择 的 过 滤器 参数 。 
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2.19 过 滤器 


一 旦 选 定 了 过 滤器 ， 其 名 称 和 参数 都 会 显示 在 过 滤器 文本 框 内 。 在 文本 框 内 单 击 ， 会 
弹出 通用 对 象 编辑 器 对 话 框 ， 如 图 2.20 所 示 。 
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2.20 通用 对 象 编辑 器 对 话 框 


该 通用 对 象 编辑 器 对 话 框 用 于 设置 过 滤器 选项 。 此 外 ， 既 然 名 称 里 有 “通用 ”二 字 ， 
显然 该 对 话 框 还 可 以 用 于 设置 其 他 对 象 ， 如 分 类 器 和 聚 类 器 等 ， 详 见 后 文 。 图 2.20 所 示 对 
话 框 中 的 About 选项 组 简要 说 明 所 选择 过 滤器 的 功能 ， 单 击 右 侧 的 More 按钮 ， 会 弹出 
Information 对 话 框 ， 显 示 过 滤器 的 简介 和 不 同 选项 的 功能 ， 如 图 2.21 所 示 ; 单 击 
Capabilities 按钮 ， 会 弹出 Information about Capabilities 对 话 框 ， 列 出 所 选择 对 象 能 够 处 理 
的 类 别 类 型 和 属性 类 型 ， 如 图 2.22 所 示 。 
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图 2.21 Information 对 话 框 图 2.22 Information about Capabilities 对 话 框 


在 图 2.20 所 示 对 话 框 的 中 部 ，attributeIndices 文本 框 用 于 让 用 户 输入 要 删除 (因为 此 处 
为 Remove 过 滤器 ) 属 性 的 索引 (或 下 标 );， 如 果 将 debug 下 拉 列 表 框 设置 为 True， 过 滤器 会 
在 控制 台 输 出 额外 信息 ; 如 果 将 doNotCheckCapabilities 下 拉 列 表 框 设置 为 True， 在 构建 
过 滤器 之 前 将 不 检查 过 滤器 的 能 力 ， 谨 慎 使 用 以 减少 运行 时 间 ; invertSelection 下 拉 列 表 
框 中 只 有 True 和 False 两 个 选项 ， 指 示 是 否 反选 。 对 话 框 下 端 有 四 个 按钮 : Open 按钮 用 
于 打开 所 保存 的 对 象 选项 设置 ，Save 按钮 用 于 保存 对 象 选项 设置 ， 以 备 将 来 使 用 ，OK 按 
钮 用 于 正确 完成 设置 后 ， 返 回 探索 者 界面 ; Cancel 按钮 用 于 取消 所 做 的 修改 ， 回 退 到 原来 
的 状态 。 

右 击 (或 在 按 住 Alt 键 和 Shift 键 的 同时 单 击 ) 过 滤器 文本 框 ， 弹 出 的 快捷 菜单 中 有 四 个 
菜单 项 : Show properties( 显 示 属 性 )、Copy configuration to clipboard( 复 制 设置 到 剪贴 板 )、 
Enter configuration( 输 入 设置 ) 和 Edit configuration( 编 辑 设 置 )。 如 果 选 择 Show properties 菜 
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单项 ， 就 会 弹出 通用 对 象 编辑 器 对 话 框 ， 允 许 用 户 修改 设置 ， 其 功能 与 单 击 过 滤器 文本 框 
一 样 ， 如 果 选 择 Copy configuration to clipboard 菜单 项 ， 则 将 当前 的 设置 字符 串 复制 到 剪贴 
板 ， 以 便 用 于 Weka 以 外 的 系统 中 ， 当 用 户 设置 了 很 长 而 复杂 的 选项 设置 字符 串 并 且 想 将 
来 复 用 时 ， 该 功能 尤其 方便 ， 如 果 选 择 Enter configuration 菜单 项 ， 则 弹出 “输入 ”对 话 
框 ， 让 用 户 直接 输入 设置 字符 串 ， 格 式 为 类 名 称 后 接 类 能 够 支持 的 选项 ， 如 图 2.23 所 示 ; 
如 果 选 择 Edit configuration 菜单 项 ， 则 弹出 如 图 2.24 所 示 的 “输入 ”对 话 框 ， 让 用 户 直 接 
编辑 设置 字符 串 。 


x 


@ Configuration (<classname> [<options>]) 


Lnws || ms 


图 2.23 “输入 ”对 话 框 (1) 2.24 “输入 ”对 话 框 (2) 


一 旦 选择 并 配置 好 一 个 过 滤器 之 后 ， 就 可 以 将 其 应 用 到 数据 集 。 单 击 位 于 Preprocess 
标签 页 中 Filter 选项 组 右 端 的 Apply 按钮 应 用 过 滤 ，Preprocess 标签 页 会 显示 转换 后 的 数据 
信息 。 如 果 对 结果 不 满意 ， 可 以 单 击 Undo 按钮 撤销 转换 ， 还 可 以 单 击 Edit 按钮 在 数据 集 
编辑 器 里 手动 修改 数据 。 如 果 满 意 修改 后 的 结果 ， 可 以 单 击 Preprocess 标签 页 右上 角 的 
Save 按钮 ， 将 当前 关系 以 文件 格式 进行 保存 ， 以 供 将 来 使 用 。 

使 用 直方 图 上 部 的 下 拉 列 表 框 ， 可 以 设置 类 别 属性 。 根 据 是 否 设置 类 别 属 性 ， 有 些 过 
滤器 的 行为 会 有 所 不 同 。 特 别 地 ， 有 监督 过 滤器 要 求 设置 类 别 属性 ， 一些 无 监督 属性 过 滤 
器 会 忽略 类 别 属性 ， 即 使 已 经 设置 了 类 别 属性 。 


注意 : ”如 果 不 想 设置 类 别 属性 ， 可 以 将 类 别 属性 设置 为 No class。 


2.2.4 ”过 滤器 算法 介绍 


本 节 介绍 在 Weka 中 实现 的 过 滤 算 法 ， 这 些 过 滤 算 法 都 可 以 用 于 探索 者 、 知 识 流 和 实 
验 者 界面 。 

所 有 的 过 滤器 都 是 对 输入 数据 集 进 行 某 种 程度 的 转换 ， 将 其 转换 为 适合 数据 挖掘 的 形 
式 。 选 择 某 个 过 滤器 之 后 ， 过 滤器 的 名 字 及 默认 参数 会 出 现在 Choose 按钮 旁 的 过 滤器 文 
本 框 内 ， 通 过 单 击 该 文本 框 ， 可 以 在 通用 对 象 编辑 器 对 话 框 中 设置 其 属性 。 过 滤器 以 及 参 
数 都 会 以 命令 行 的 方式 显现 在 文本 框 中 ， 仔 细 观 察 和 研究 这 些 过 滤器 和 参数 设置 ， 是 学 习 
如 何 直 接 使 用 Weka 命令 的 好 方法 。 

Weka 过 滤器 分 为 无 监督 过 滤器 和 有 监督 过 滤器 两 种 。 过 滤器 经 常 应 用 于 训练 集 ， 然 
后 再 应 用 于 测试 集 。 如 果 过 滤器 是 有 监督 的 ， 例 如 ， 使 用 类 别 值 的 离散 化 过 滤器 是 有 监督 
的 ， 它 会 使 用 类 别 值 以 得 到 良好 的 离散 化 间隔 ， 但 如 果 将 有 监督 的 离散 化 过 滤器 在 测试 集 
中 训练 并 应 用 ， 由 于 已 经 提前 “看 到 ”并 “使 用 ”了 测试 集中 的 类 别 信息 ， 可 能 会 使 结果 
出 现 偏 倚 。 因 此 ， 使 用 有 监督 的 过 滤器 时 ， 必 须 非常 小 心 ， 以 确保 评估 结果 的 公平 性 。 例 
如 ， 有 监督 的 离散 化 过 滤器 必须 仅 从 训练 集中 通过 训练 得 到 离散 化 间隔 ， 并 将 这 些 间 隔 应 
用 到 测试 集中 。 然 而 ， 由 于 无 须 经 过 训练 ， 无 监督 过 滤器 就 不 会 出 现 这 个 问题 。 


Weka 将 无 监督 和 有 监督 两 种 过 滤 方 法 分 开 处 理 ， 每 种 类 型 又 细 分 为 属性 过 滤器 和 实 
例 过 滤器 ， 前 者 作用 于 数据 集中 的 属性 ， 后 者 作用 于 数据 集中 的 实例 。 要 了 解 某 个 过 滤器 
的 更 多 使 用 信息 ， 可 在 Weka 探索 者 界面 中 选择 该 过 滤器 ， 并 查看 对 应 的 对 象 编辑 器 ， 以 
了 解 该 过 滤器 的 功能 和 选项 。 

Weka 实现 的 过 滤器 的 更 详细 介绍 请 参见 附录 B， 附 录 B 中 按照 字母 顺序 列 出 各 过 滤 
器 的 功能 及 选项 。 本 节 按 照 过 滤器 的 类 型 和 功能 进行 介绍 。 

1. 无 监督 属性 过 滤器 

1) 添加 和 删除 属性 

Add 过 滤器 在 一 个 给 定 的 位 置 插入 一 个 属性 ， 对 于 所 有 实例 该 属性 值 声明 为 缺失 。 使 
用 通用 对 象 编辑 器 对 话 框 来 指定 属性 名 称 ， 指 定 的 属性 名 称 会 出 现在 属性 列表 中 ， 标 称 型 
属性 还 可 以 指定 可 能 值 ， 日 期 型 属性 还 可 以 指定 日 期 格式 。Copy 过 滤器 复制 现 有 属性 ， 这 
样 就 可 以 在 实验 时 保护 这 些 属性 ， 以 免 属 性 值 为 过 滤器 所 覆盖 。 使 用 表达 式 可 以 一 起 复制 
多 个 属性 ， 例 如 ，“1-3” 复 制 前 三 个 属性 ，“first-3,5,9-last” 复 制 属性 “1、2、3、5、 
9、10、11、12、…”。 选 择 可 以 进行 反 转 ， 即 反选 ， 反 选 选 中 除了 选 定 属性 以 外 的 所 有 
属性 。 很 多 过 滤器 都 拥有 表达 式 和 反选 功能 。 

AddID 过 滤器 在 用 户 指 定 索 引 的 属性 列表 中 插入 一 个 数字 标识 符 属性 。 标 识 符 属性 常 
用 于 跟踪 某 个 实例 ， 尤 其 是 在 已 经 通过 某 种 方式 处 理 过 数据 集 之 后 ， 例 如 ， 通 过 其 他 过 滤 
器 进行 过 转换 ， 或 者 随机 化 重 排 实例 的 顺序 之 后 ， 此 时 标识 符 便于 跟踪 。 

Remove 过 滤器 删除 数据 集中 指定 范围 的 属性 ， 与 之 类 似 的 有 RemoveType 过 滤器 和 
RemoveUseless 过 滤器 ，RemoveType 过 滤器 删除 指定 类 型 ( 标 称 型 、 数 值 型 、 字 符 串 型 、 
日 期 型 或 关系 型 ) 的 所 有 属性 ，RemoveUseless 过 滤器 删除 常量 属性 以 及 几乎 与 所 有 实例 的 
值 都 不 相同 的 标 称 型 属性 。 用 户 可 以 通过 规定 不 相同 值 的 数量 占 全 部 值 总 数 的 百分比 来 设 
定 可 以 容忍 的 变化 度 ， 决 定 是 否 删除 一 个 属性 。 需 要 注意 的 是 ， 如 果 在 Preprocess 标签 页 
中 已 经 设置 了 类 别 属性 (默认 情况 下 ， 最 后 一 个 属性 就 是 类 别 属性 )， 则 不 同 无 监督 属性 过 
滤器 的 行为 不 同 。 例 如 ，RemoveType 和 RemoveUseless 过 滤器 都 会 跳 过 类 别 属 性 。 

InterquartileRange 过 滤器 添加 新 属性 ， 以 指示 实例 的 值 是 否 可 以 视 为 离 群 值 或 极端 
值 。 离 群 值 和 极端 值 定 义 为 基于 属性 值 的 第 25 个 和 第 75 个 百 分 位 数 之 间 的 差 。 如 果 用 户 
指定 的 极端 值 系 数 和 百 分 位 距 的 乘积 值 高 于 第 75 个 百 分 位 数 ， 或 低 于 第 25 个 百 分 位 数 ， 
该 值 就 标记 为 极端 值 (也 有 超出 上 述 范围 标记 为 离 群 值 但 不 是 极端 值 的 情况 )。 可 以 设置 该 
过 滤器 ， 如 果 某 个 实例 的 任意 属性 值 认 为 是 离 群 值 或 极端 值 ， 或 产生 离 群 极端 的 指标 ， 可 
以 标记 该 实例 为 离 群 值 或 极端 值 。 也 可 以 将 所 有 极端 值 标记 为 离 群 值 ， 并 输出 与 中 位 数 偏 
离 多 少 个 百 分 位 数 的 属性 。 该 过 滤器 忽略 类 别 属性 。 

AddCluster 过 滤器 先 将 一 种 聚 类 算法 应 用 于 数据 ， 然 后 再 进行 过 滤 。 用 户 通 过 对 象 编 
辑 器 选择 聚 类 算法 ， 其 设置 方式 与 过 滤器 一 样 。AddCluster 对 象 编辑 器 通过 自己 界面 中 的 
Choose 按钮 来 选择 聚 类 器 ， 单 击 Choose 按钮 右边 的 文本 框 ， 会 打开 另外 一 个 对 象 编辑 器 
对 话 框 ， 在 新 对 话 框 中 设置 聚 类 器 的 参数 ， 必 须 填 写 完整 后 才能 返回 AddCluster 对 象 编辑 
器 。 一 旦 用 户 选 定 一 个 聚 类 器 ，AddCluster 会 为 每 个 实例 指定 一 个 徐 号 ， 作 为 实例 的 新 属 
性 。 对 象 编辑 器 还 允许 用 户 在 聚 类 时 忽略 某 些 属性 ， 如 前 文 所 述 的 Copy 过 滤器 那样 指 
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定 。ClusterMembership 过 滤器 在 过 滤器 对 象 编辑 器 中 指定 所 使 用 的 聚 类 器 ， 生 成 通 隶 属 度 
值 ， 以 形成 新 的 属性 。 如 果 设 置 了 类 别 属性 ， 在 聚 类 过 程 中 会 忽略 。 
AddExpression 过 滤器 通过 将 一 个 数学 函数 应 用 于 数值 型 属性 而 生成 一 个 新 属性 。 表 达 
式 可 包括 属性 引用 和 和 常量， 四 则 运算 符 +、-、*、/ 和 ^， 函 数 log、abs、cos、exp、sqrt、 
floor、ceil、rint、tan、sin 以 及 左右 括号 。 属 性 可 通过 索引 加 前 绥 a 确定 ， 例 如 a7 指 第 七 
个 属性 。 表 达 式 范例 如 下 : 


al^2x*a5/1og(a7*4.0) 


MathExpression 过 滤器 与 AddExpression 过 滤器 类 似 ， 它 根据 给 定 的 表达 式 修 改 数值 
型 属性 ， 能 够 用 于 多 个 属性 。 该 过 滤器 只 是 在 原 地 修改 现 有 属性 ， 并 不 创建 新 属性 。 正 因 
为 如 此 ， 表 达 式 中 不 能 引用 其 他 属性 的 值 。 所 有 适用 于 AddExpression 过 滤器 的 操作 符 都 
可 用 ， 还 可 以 求 正 在 处 理 属 性 的 最 小 值 、 最 大 值 、 平 均值 、 和 、 平 方 和 以 及 标准 偏差 。 此 
外 ， 可 以 使 用 包含 运算 符 和 函数 的 简单 下 then-else 表达 式 。 

NumericTransform 过 滤器 通过 对 选中 的 数值 型 属性 调用 Java 函数 ， 可 以 执行 任意 的 转 
换 。 该 函数 可 以 接受 任意 double 数值 作为 参数 ， 返 回 值 也 为 double 类 型 。 例 如 ， 
java.lang.Math 类 的 sqrt0 函 数 就 符合 这 一 标准 。NumericTransform 过 滤器 的 一 个 参数 
(className) 是 实现 该 函数 Java 类 的 全 限定 名 称 ， 还 有 一 个 参数 是 转换 方法 的 名 称 。 

Normalize 过 滤器 将 数据 集中 的 全 部 数值 型 属性 规范 化 在 [0.1] 区 间 内 。 规 范 化 值 可 以 采 
用 用 户 提供 的 常数 进一步 进行 缩放 和 转换 。Center 和 Standardize 过 滤器 能 将 数值 型 属性 转 
换 为 具有 零 均值 的 数值 型 属性 ， 后 者 还 能 转换 为 具有 单位 方差 的 数值 型 属性 。 如 果 设 置 了 
类 别 属性 ， 上 述 三 个 过 滤器 都 会 跳 过 ， 不 对 类 别 属性 进行 处 理 。RandomSubset 过 滤器 随机 
选择 属性 的 一 个 子 集 ， 并 包括 在 输出 中 。 可 以 用 绝对 数值 或 百分比 指定 抽取 的 范围 ， 输 出 
的 新 数据 集 总 是 把 类 别 属性 作为 最 后 一 个 属性 。 

PartitionedMultiFilter 是 一 种 特殊 的 过 滤器 ， 在 输入 数据 集中 一 组 对 应 的 属性 范围 内 应 
用 一 组 过 滤器 。 只 多 许 使 用 能 操作 属性 的 过 滤器 ， 用 户 提 供 和 配置 每 个 过 滤器 ， 定 义 过 滤 
器 工作 的 属性 范围 。removeUnused 选项 可 以 删除 不 在 任何 范围 内 的 属性 ， 将 各 个 过 滤器 的 
输出 组 装 成 一 个 新 的 数据 集 。Reorder 过 滤器 改变 数据 中 属性 的 顺序 ， 通 过 提供 属性 索引 
列表 ， 指 定 新 顺序 。 另 外 ， 通 过 省 略 或 复制 属性 索引 ， 可 以 删除 属性 或 添加 多 个 副本 。 

2) 改变 值 

SwapValues 过 滤器 交换 同一 个 标 称 型 属性 的 两 个 值 的 位 置 。 值 的 顺序 不 影响 学 习 ， 但 
如 果 选 择 了 类 别 属 性 ， 顺 序 的 改变 会 影响 混淆 矩阵 的 布局 。MergeTwoValues 过 滤器 将 一 
个 标 称 型 属性 的 两 个 值 合 并 为 一 个 单独 的 类 别 ， 新 值 的 名 称 是 原 有 两 个 值 的 字符 串 连 接 ， 
每 一 个 原 有 值 的 每 次 出 现 都 更 换 为 新 值 ， 新 值 的 索引 比 原 有 值 的 索引 小 。 例 如 ， 天 气 数据 
集中 原 有 五 个 sunny、 四 个 overcast、 五 个 rainy 实例 ， 如 果 合 并 outlook 属性 的 前 两 个 值 
(sunny 和 overcast)， 则 新 的 outlook 属性 就 包含 sunny_overcast 和 rainy 值 ， 数 据 集 中 将 有 
九 个 sunny_overcast 实例 和 原 有 的 五 个 rainy 实例 。MergeManyValues 过 滤器 将 指定 标 称 型 
属性 的 多 个 值 合 并 为 一 个 值 。MergeInfrequentNominalValues 过 滤器 将 指定 标 称 型 属性 中 出 
现 次 数 足 够 低 的 值 进行 合并 。 

处 理 缺 失 值 的 一 个 方法 是 在 实施 学 习 方 案 前 ， 全 局 蔡 换 缺 失 值 。ReplaceMissingValues 
过 滤器 用 均值 取代 每 个 数值 型 属性 的 缺失 值 ， 用 出 现 最 多 的 众 数 取 代 标 称 型 属性 的 缺失 


值 。 如 果 设 置 了 类 别 属性 ， 默 认 不 替换 该 属性 的 缺失 值 ， 但 可 以 使 用 ignoreClass 选项 进行 
修改 。ReplaceWithMissingValue 过 滤器 用 于 在 数据 集中 引入 缺失 值 ， 指 定 概率 用 于 决定 是 
否 将 实例 的 特定 属性 值 蔡 换 为 缺失 值 。 

NumericCleaner 过 滤器 用 默认 值 取代 数值 型 属性 中 值 太 小 ， 或 太 大 ， 或 过 于 接近 某 个 
特定 值 的 取 值 。 也 可 以 为 每 一 种 情况 指定 不 同 的 默认 值 ， 供 选择 情况 包括 认定 为 太 大 或 太 
小 的 阔 值 ， 以 及 过 于 接近 定义 的 容 差 值 (tolerance value)。 

AddValues 过 滤器 对 照 用 户 提供 的 列表 ， 在 标 称 型 属性 中 添加 其 中 不 存在 的 值 ， 可 以 
选择 对 标签 进行 升序 排序 。 如 果 不 提供 标签 列表 ， 可 以 只 对 原 有 标签 排序 。ClassAssigner 
过 滤器 用 于 设置 或 取消 数据 集 的 类 别 属性 。 用 户 提供 新 的 类 别 属性 的 索引 ， 索 引 为 0 则 取 
消 当 前 类 别 属性 。 

3) 转换 

许多 过 滤器 可 用 于 将 属性 从 一 种 形式 转换 为 另 一 种 形式 。Discretize 过 滤器 使 用 等 宽 或 
等 频 分 箱 将 指定 范围 内 的 数值 型 属性 离散 化 。 对 于 等 宽 分 箱 方法 ， 可 以 指定 箱 数 ， 或 使 用 
留 一 法 交叉 验证 ， 自 动 选择 使 似 然 值 最 大 化 。 也 可 以 创建 多 个 二 元 属性 ， 蔡 换 一 个 多 元 属 
性 。 对 于 等 频 离 散 化 ， 可 以 改变 每 个 分 隔 期 望 的 实例 数量 。PKIDiscretize 过 滤器 使 用 等 频 
分 箱 离散 化 数值 型 属性 ， 箱 的 数目 设置 为 非 缺 失 值 数 量 的 平方 根 。 默 认 情况 下 ， 上 述 两 个 
过 滤器 都 跳 过 类 别 属性 。 

MakeIndicator 过 滤器 将 标 称 型 属性 转换 为 二 元 指示 符 属 性 ， 可 以 用 于 将 多 个 类 别 的 数 
据 集 转换 成 多 个 两 个 类 别 的 数据 集 。 它 用 二 元 属性 替换 所 选择 的 标 称 型 属性 ， 其 中 ， 如 果 
某 个 特定 的 原始 值 存在 ， 该 实例 的 值 为 1， 否 则 为 0。 新 属性 默认 声明 为 数值 型 ， 但 如 果 
需要 ， 也 可 以 声明 为 标 称 型 。 

对 于 一 些 学 习 方 案 ， 如 支持 向 量 机 ， 多 元 标 称 型 属性 必须 被 转换 成 二 元 属性 。 
NominalToBinary 过 滤器 能 将 数据 集中 所 有 指定 的 多 元 标 称 型 属性 转换 为 二 元 属性 ， 使 用 
一 种 简单 的 “每 值 一 个 ”(one-per-value) 编 码 ， 将 每 个 属性 替换 为 大 个 二 元 属性 的 大 个 值 。 
默认 情况 下 ， 新 属性 将 是 数值 型 ， 已 经 是 二 元 属性 的 将 保持 不 变 。NumericToBinary 过 滤 
器 将 除了 类 别 属性 外 的 所 有 数值 型 属性 转换 成 标 称 二 元 属性 。 如 果 数 值 型 属性 的 值 恰好 为 
0， 新 属性 值 也 为 0;， 如 果 属 性 值 缺失 ， 新 属性 值 也 缺失 ; 和 否则， 新 属性 值 将 为 1。 上 述 过 
滤器 都 跳 过 类 别 属性 。NumericToNominal 过 滤器 通过 简单 地 增加 每 一 个 不 同 数值 到 标 称 值 
列表 ， 将 数值 型 属性 转换 为 标 称 型 属性 。 该 过 滤器 在 导入 .csv 文件 之 后 非常 有 用 ，Weka 的 
csv 导入 机 制 将 所 有 可 解析 为 数字 的 数据 列 都 相应 创建 为 数值 型 属性 ， 但 有 时 将 整 型 属性 
的 值 解释 为 离散 的 标 称 型 有 可 能 更 为 恰当 。 

FirstOrder 过 滤器 对 一 定 范围 内 的 数值 型 属性 应 用 一 阶 差 分 算 子 。 算 法 为 : 将 个 数 
值 型 属性 替换 为 N-1 个 数值 型 属性 ， 其 值 是 原来 实例 中 连续 属性 值 之 差 ， 即 新 属性 值 等 于 
后 一 个 属性 值 减 去 前 一 个 属性 值 。 例 如 ， 如 果 原 来 的 属性 值 分 别 为 3、2、1， 则 新 的 属性 
值 将 是 -1、-1。 

KemelFilter 过 滤器 将 数据 转换 为 核 矩 阵 ， 类 别 值 保 持 不 变 。 它 输出 一 个 新 数据 集 ， 包 
含 的 实例 数量 和 原来 的 一 样 ， 新 数据 集 的 每 个 值 都 是 用 核 函数 评估 一 对 原始 实例 的 结果 。 
默认 情况 下 ， 预 处 理 使 用 Center 过 滤器 ， 将 所 有 的 值 都 转换 为 将 中 心平 移 至 0， 尽 管 没 有 
重新 缩放 为 单位 方差 。 然 而 ， 用 户 也 可 以 指定 用 不 同 的 过 滤器 。 
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PrincipalComponents 过 滤器 在 数据 集 上 进行 主 成 分 转换 ， 将 多 元 标 称 型 属性 转换 为 二 
元 属性 ， 用 均值 替换 缺失 值 ， 默 认 将 数据 标准 化 。 主 成 分 数量 通常 根据 用 户 指定 的 覆盖 比 
例 的 方差 确定 ， 但 也 可 以 明确 指定 主 成 分 数量 。 

Transpose 过 滤器 将 数据 进行 转 置 运算 : 实例 变 为 属性 ， 属 性 变 为 实例 。 

4) 字符 串 转换 

字符 串 型 属性 值 的 数目 不 定 。StringToNominal 过 滤器 用 一 组 值 将 字符 串 型 属性 转换 为 
标 称 型 属性 。 用 户 要 确保 所 有 要 出 现 的 字符 串 值 都 会 在 第 一 批 数 据 中 出 现 。 
NominalToString 过 滤器 转换 的 方向 相反 。 

StringToWordVector 过 滤器 将 字符 串 型 属性 转换 为 表示 单词 出 现 频率 的 数值 型 属性 。 
单词 集合 就 是 新 的 属性 集 ， 由 字符 串 型 属性 值 的 完整 集合 确定 。 新 属性 可 以 采用 用 户 指定 
的 前 级 来 命名 ， 这 样 通过 名 称 容易 区 分 来 源 不 同 的 字符 串 型 属性 。 

ChangeDateFormat 过 滤器 更 改 用 于 解析 日 期 型 属性 的 格式 化 字符 串 ， 可 以 指定 Java 的 
SimpleDateFormat 类 所 支持 的 任意 格式 。 

5) 时 间 序列 

Weka 提供 两 种 处 理 时 间 序 列 的 过 滤器 。TimeSeriesTranslate 过 滤器 将 当前 实例 的 属性 
值 蔡 换 为 以 前 (或 未 来 ) 的 实例 的 等 效 属性 值 。TimeSeriesDelta 过 滤器 将 当前 实例 的 属性 值 
替换 为 以 前 (或 未 来 ) 的 实例 的 等 效 属性 值 与 当前 属性 值 之 间 的 差 值 。 对 于 时 移 差 值 未 知 的 
实例 ， 要 么 删除 实例 ， 要 么 使 用 缺失 值 。 

6) 随机 化 

一 些 属 性 过 滤器 有 意 降 低 数据 的 质量 。AddNoise 过 滤器 按照 指定 的 一 定 比例 更 改 标 称 
型 属性 的 值 。 可 以 保留 缺失 值 不 变 ， 也 可 以 让 缺失 值 和 其 他 值 一 起 变化 。Obfuscate 过 滤器 
对 关系 型 属性 、 全 部 属性 名 称 ， 以 及 所 有 标 称 型 属性 值 进行 重 命名 ， 对 数据 集 进 行 模糊 处 
理 ， 目 的 主要 是 为 了 交换 敏感 数据 集 。RandomProjection 过 滤器 通过 使 用 列 为 单位 长 度 
的 随机 矩阵， 将 数据 投影 到 一 个 低 维 子 空间 ， 以 此 来 降低 数据 维 数 。 投 影 不 包括 类 别 属性 。 

2. 无 监督 实例 过 滤器 

1) 随机 化 和 子 抽样 

Randomize 过 滤器 用 于 将 数据 集中 实例 的 顺序 进行 随机 重 排 。 产 生 的 数据 子 集 的 方式 
有 很 多 种 。Resample 过 滤器 产生 一 个 有 放 回 或 无 放 回 数据 集 的 随机 子 样本 。RemoveFolds 
过 滤器 将 数据 集 分 割 为 给 定 的 交叉 验证 折 数 ， 并 指定 输出 第 几 折 。 如 果 提 供 一 个 随机 数 种 
子 ， 在 提取 子 集 前 ， 先 对 数据 集 重新 排序 。ReservoirSample 过 滤器 使 用 水 库 抽样 算法 从 数 
据 集中 抽取 一 个 随机 样本 (无 放 回 )。 当 在 知识 流 界面 或 命令 行 界面 中 使 用 时 ， 可 以 增 量 读 
取 数 据 集 ， 因 此 可 以 抽样 超出 主 内 存 容量 的 数据 集 。 

RemovePercentage 过 滤器 删除 数据 集中 给 定 百分比 的 实例 。RemoveRange 过 滤器 删除 
数据 集中 给 定 范围 的 实例 。RemoveWithValues 过 滤器 删除 符合 条 件 的 实例 ， 如 标 称 型 属性 
具有 一 定 值 的 ， 或 者 数值 型 属性 大 于 或 小 于 特定 阔 值 的 。 默 认 情况 下 ， 会 删除 所 有 满足 条 
件 的 实例 。 也 可 以 反 向 匹配 ， 保 留 所 有 满足 条 件 的 实例 ， 删 除 其 余 实例 。 

RemoveFrequentValues 过 滤器 删除 那些 满足 某 个 标 称 型 属性 值 最 经 常 或 最 不 经 常 使 用 
的 对 应 的 实例 。 用 户 可 以 指定 频 度 多 大 或 多 小 的 具体 值 。 


RemoveDuplicates 过 滤器 删除 接收 到 的 第 一 批 数据 中 所 有 重复 的 实例 。 

SubsetByExpression 过 滤器 选择 那些 满足 用 户 提供 的 逻辑 表达 式 的 所 有 实例 。 表 达 式 
可 以 是 数学 运算 符 和 函数 ， 如 那些 可 用 于 AddExpression 和 MathExpression 过 滤器 的 运算 
符 和 函数 ， 以 及 应 用 于 属性 值 的 逻辑 运算 符 (与 、 或 、 非 )。 例 如 ， 表 达 式 


(CLASS is 'mammal') and (ATT14 > 2) 


选择 那些 CLASS 属性 值 为 mammal 并 且 第 14 个 属性 的 值 大 于 2 的 实例 。 

通过 将 分 类 方法 应 用 到 数据 集 ， 然 后 使 用 RemoveMisclassified 过 滤器 删除 错误 分 类 的 
实例 ， 可 以 删除 离 群 值 。 通 常 上 述 过 程 需要 重复 多 遍 ， 直 到 充分 清洗 数据 ， 也 可 以 指定 最 
大 的 迭代 次 数 。 除 了 评估 训练 数据 ， 还 可 以 使 用 交叉 验证 ， 对 数值 类 别 也 可 以 指定 错误 
闵 值 。 

2) 稀疏 实例 

NonSparseToSparse 过 滤器 将 全 部 输入 实例 转换 为 稀 朴 格式 。SparseToNonSparse 过 滤 
器 将 输入 的 所 有 稀疏 实例 转换 为 非 稀疏 格式 。 


3. 有 监督 属性 过 滤器 


Discretize 过 滤器 将 数据 集中 一 定 范围 内 的 数值 型 属性 离散 化 为 标 称 型 属性 ， 用 户 可 指 
定 属 性 的 范围 以 及 强制 属性 进行 二 元 离散 化 。 要 求 类 别 属性 为 标 称 型 属性 ， 默 认 的 离散 化 
方法 是 Fayyad & Irani 的 MDL( 最 小 描述 长 度 ) 判 据 ， 也 可 以 使 用 Kononenko 方法 。 

NominalToBinary 过 滤器 也 有 一 个 有 监督 版 本 ， 用 于 将 全 部 标 称 型 属性 转换 成 二 元 的 
数值 型 属性 。 在 有 监督 版 本 中 ， 类 别 属性 是 标 称 型 还 是 数值 型 决定 了 如 何 进行 转换 。 如 果 
是 标 称 型 ， 使 用 每 个 值 一 个 属性 的 方法 ， 将 大 个 值 的 属性 转换 成 大 个 二 元 属性 。 如 果 是 数 
值 型 ， 考 虑 类 别 平均 值 与 每 个 属性 值 的 关联 ， 创 建 二 1 个 新 的 二 元 属性 。 两 种 情况 都 不 改 
变 类 别 本 身 。 

MergeNominalValues 过 滤器 使 用 CHAID 方法 ， 合 并 指定 范围 的 标 称 型 属性 (但 不 含 类 
别 属 性 ) 中 的 所 有 属性 值 ， 它 不 使 用 re-split 子 集合 并 。 

ClassOrder 过 滤器 更 改 类 别 顺序 。 用 户 指 定 新 顺序 是 否 按 随 机 顺序 ， 或 按 类 别 频率 进 
行 升序 或 降序 排列 。 该 过 滤器 不 能 与 FilteredClassifier 元 学 习 方 案 联合 使 用 。 
AttributeSelection 过 滤器 用 于 自动 属性 选择 ， 并 提供 与 探索 者 界面 中 Select attributes 标签 
页 相同 的 功能 。 

ClassConditionalProbabilities 过 滤器 将 标 称 型 属性 值 或 数值 型 属性 值 转换 为 类 别 条 件 概 
率 。 如 果 有 上 大 个 类 别 ， 则 将 创建 大 个 新 属性 ， 其 值 由 pr(att val | class k) 给 出 。 

AddClassification 过 滤器 使 用 指定 分 类 器 为 数据 集 添 加 类 别 、 类 别 分 布 和 错误 标志 。 
分 类 器 可 以 通过 对 数据 本 身 进行 训练 而 得 到 ， 也 可 以 通过 序列 化 模型 得 到 。 

PartitionMembership 过 滤器 使 用 PartitionGenerator 生成 分 隔 隶 属 度 值 ， 过 滤 实 例 由 这 
些 值 加 上 类 别 属性 (如 果 在 输入 数据 中 设置 ) 组 成 ， 并 呈现 为 稀 朴 的 实例 集 。 


4. 有 监督 实例 过 滤器 


Weka 提供 四 个 有 监督 的 实例 过 滤器 。 
ClassBalancer 过 滤器 调整 数据 集中 的 实例 ， 使 得 每 个 类 别 都 有 相同 的 总 权重 。 所 有 实 
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例 的 权重 总 和 将 维持 不 变 。 

Resample 过 滤器 与 同名 的 无 监督 实例 过 滤器 类 似 ， 但 它 保持 在 子 样本 的 类 别 分 布 。 另 
外 ， 它 可 以 配置 是 否 使 用 均匀 的 分 类 偏 倚 ， 抽 样 可 以 设置 为 有 放 回 (默认 ) 或 无 放 回 模式 。 

SpreadSubsample 过 滤器 也 产生 一 个 随机 子 样本 ， 但 可 以 控制 最 稀少 和 最 常见 的 类 别 之 
间 的 频率 差异 。 例 如 ， 可 以 指定 至 多 2 : 1 类 别 频率 差异 。 也 可 以 通过 明确 指定 某 个 类 别 
的 最 大 计数 值 ， 来 限制 实例 的 数量 。 

与 无 监督 的 实例 过 滤器 RemoveFolds 相似 ，StratifiedRemoveFolds 过 滤器 为 数据 集 输 
出 指定 交叉 验证 的 折 ， 不 同 之 处 在 于 此 时 的 折 是 分 层 的 。 


2.2.5 “手把手 教 你 用 


1. 使 用 数据 集 编辑 器 


Weka 可 以 查看 和 编辑 整个 数据 集 。 

首先 加 载 weather.nominal.arff 文件 ， 单 击 Preprocess 标签 页 中 的 Edit 按钮 ， 弹 出 
Viewer( 阅 读 器 ) 对 话 框 ， 列 出 全 部 天 气 数据 。 该 对 话 框 以 二 维 表 的 形式 展现 数据 ， 用 于 查 
看 和 编辑 整个 数据 集 ， 也 称 为 数据 集 编辑 器 ， 如 图 2.25 所 示 。 


图 2.25 数据 集 编辑 器 


数据 表 顶 部 显示 当前 数据 集 的 关系 名 称 。 表 头 列 出 数据 集 各 属性 的 序号 、 名 称 和 数据 
类 型 。 数 据 集 编辑 器 的 第 一 列 是 序号 ， 标 识 实 例 的 编号 。 

数据 集 编辑 器 右 下 部 有 三 个 按钮 : Undo 按钮 用 于 撤销 所 做 的 修改 ， 不 关闭 窗口 ，OK 
按钮 用 于 提交 所 做 的 修改 ， 关 闭 窗口 ，Cancel 按钮 用 于 放弃 所 做 的 修改 ， 关 闭 窗口 。 

除了 用 探索 者 界面 编辑 数据 集 之 外 ， 还 可 以 直接 使 用 ARFF-Viewer 工具 。 有 具体 方法 
是 ， 在 Weka GUI 选择 器 窗口 中 ， 选 择 Tools | ArffViewer 菜单 项 ， 或 按 Ctrl+A 快捷 键 ， 
就 可 以 打开 ARFF-Viewer 窗口 ， 再 选择 窗口 中 的 File | Open 菜单 项 ， 就 可 以 打开 Weka 支 
持 的 各 种 数据 文件 ， 如 图 2.26 所 示 。 可 以 看 到 ，ARFF-Viewer 窗口 可 提供 更 多 的 编辑 和 视 
图 功能 。 
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2.26 ARFF-Viewer 窗口 


2. 删除 属性 

Weka 使 用 过 滤器 来 系统 性 地 更 改 数据 集 ， 因 此 过 滤器 属于 预 处 理工 具 。 

假设 要 求 去 除 weather.nominal.arff 数据 集 的 第 二 个 属性 ， 即 temperature 属性 ， 具 体操 
作 步 又 如 下 。 

首先 ， 使 用 探索 者 界面 加 载 weather.nominal.arff 文件 。 在 Perprocess 标签 页 中 单 击 
Choose 按钮 ， 打 开 过 滤器 分 层 列 表 ， 如 图 2.27 所 示 。 


repreenss Classify | Cluster | Mssociare | Stlect attribures | Visvalize 


图 2.27 过 滤器 分 层 列表 


适合 本 例 要 求 的 过 滤器 为 Remove， 全 称 是 weka .filters.unsupervised.attribute.Remove。 
从 名 称 上 可 以 看 出 ， 过 滤器 组 织 成 层次 结构 ， 根 为 weka， 往 下 继续 分 为 unsupervised( 无 监 
督 ) 和 supervised( 有 监督 ) 两 种 类 型 ， 前 者 不 使 用 类 别 属 性 ， 后 者 使 用 。 继 续 往 下 分 为 
attribute( 属 性 ) 和 instance( 实 例 ) 两 种 类 型 ， 前 者 主要 处 理 有 关 属 性 的 过 滤 ， 后 者 处 理 有 关 实 
例 的 过 滤 。 

在 分 层 列表 中 按照 weka\filters\unsupervised\attribute 路 径 ， 找 到 Remove 条 目 ， 单 击 选 
择 该 过 滤器 。 这 时 ，Choose 按钮 右边 的 滤波 器 文本 框 中 显示 Remove 字符 串 。 单 击 该 文本 
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数据 挖 所 与 机 器 学 习 
框 ， 打 开通 用 对 象 编辑 器 对 话 框 以 设置 参数 。 

在 attributeIndices 文本 框 内 输入 “2”， 如 图 2.28 所 示 。 单 击 OK 按钮 ， 关 闭 通用 对 象 
编辑 器 对 话 框 。 这 时 ，Choose 按钮 右边 的 文本 框 中 应 该 显示 “Remove -R 2”， 含 义 是 从 
数据 集中 去 除 第 二 个 属性 。 单 击 该 文本 框 右边 的 Apply 按钮 使 过 滤器 生效 ， 应 该 看 到 原来 
的 5 个 属性 现在 变 为 4 个 ，temperature 属性 已 经 被 去 除 。 要 特别 说 明 的 是 ， 本 操作 只 影响 
内 存 中 的 数据 ， 不 会 影响 数据 集 文件 中 的 内 容 。 当 然 ， 变 更 后 的 数据 集 也 可 以 通过 单 击 
Save 按钮 并 输入 文件 名 另存 为 ARFF 格式 或 其 他 格式 的 新 文件 。 如 果 要 撤销 过 滤 操 作 ， 可 
单 击 Undo 按钮 ， 撤 销 操作 也 只 会 影响 内 存 中 的 数据 。 
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2.28 ”修改 过 滤器 选项 


如 果 仅 需要 去 除 属性 ， 还 有 更 简单 并 且 效 果 一 样 的 方法 。 只 要 在 Attributes 选项 组 中 
选择 要 去 除 的 属性 ， 然 后 单 击 属性 表格 下 面 的 Remove 按钮 即 可 。 


3. 添加 属性 


启动 探索 者 界面 并 加 载 weather.nominal.arff 数据 集 。 假 设 要 求 在 数据 集 倒数 第 二 个 属 
性 位 置 添 加 一 个 用 户 定义 的 字段 ， 具 体操 作 步 又 如 下 。 

在 Preprocess 标签 页 中 单 击 Choose 按钮 ， 选 择 AddUserFields 过 滤器 。 然 后 单 击 
Choose 按钮 右边 的 文本 框 ， 在 通用 对 象 编辑 器 对 话 框 中 设置 AddUserFields 过 滤器 的 选 
项 。 单 击 New 按钮 ， 设 置 Attribute name( 属 性 名 称 ) 为 mode， 设 置 Attribute type( 属 性 类 
型 ) 为 nominal， 不 设置 Date format( 日 期 格式 ) 和 Attribute value( 属 性 值 ) 两 个 选项 ， 如 图 2.29 
所 示 。 
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2.29 设置 AddUserFields 过 滤器 选项 
单 击 OK 按钮 结束 选项 设置 ， 并 在 Preprocess 标签 页 中 单 击 Apply 按钮 应 用 过 滤器 。 


这 时 ， 应 该 看 到 Attributes 选项 组 的 属性 表格 中 多 出 了 一 个 mode 属性 。 单 击 Edit 按钮 ， 打 
开 Viewer 对 话 框 ， 可 以 看 到 新 增 的 属性 并 没有 值 ， 因 此 ， 下 一 步 是 添加 标 称 型 属性 值 。 

再 次 单 击 Choose 按钮 ， 选 择 AddValues 过 滤器 。 按 照 图 2.30 所 示 设 置 标 称 型 属性 
的 标签 。 
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2.30 ”设置 标签 


再 次 单 击 Edit 按钮 ， 打 开 Viewer 对 话 框 ， 如 图 2.31 所 示 。 可 以 看 到 ，mode 属性 已 经 
有 了 属性 标签 ， 可 以 随意 设置 一 些 值 ， 然 后 单 击 OK 按钮 关闭 对 话 框 。 


2.31 编辑 属性 


注意 : ”新 增 属性 的 位 置 不 太 符 合 Weka 的 习惯 ， 习 惯 上 最 后 一 个 属性 一 般 是 类 别 属 
性 ， 因 此 需要 把 第 五 个 属性 与 第 六 个 属性 对 换 一 下 。 读者 是 否 知道 该 使 用 哪 
个 过 滤器 呢 ? 
提示 : 使 用 Reorder 过 滤器 ， 参 数 为 “-R 1,2.3,4,6,5”， 请 读者 自行 完成 。 

4. 离散 化 
如 果 数 据 集 包 含 数值 型 属性 ， 但 所 用 的 学 习 方 案 只 能 处 理 标 称 型 属性 的 分 类 问题 ， 那 

么 先 将 数值 型 属性 进行 离散 化 是 必要 的 ， 这 样 就 能 使 学 习 方案 增加 处 理 数值 型 属性 的 能 

力 ， 通 常 能 获得 较 好 的 效果 。 

有 两 种 类 型 的 离散 化 技术 一 一 无 监督 离散 化 和 有 监督 离散 化 ， 前 者 不 需要 也 不 关注 类 

别 属性 值 ， 后 者 在 创建 间隔 时 考虑 实例 的 类 别 属性 值 。 离 散 化 数值 型 属性 的 直观 方法 是 将 
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数据 控 据 己 机 学 习 
值 域 分 隔 为 多 个 预先 设 定 的 间隔 区 间 。 显 然 ， 如 果 分 隔 级 别 过 大 ， 将 会 混淆 学 习 阶 段 可 能 
有 用 的 差别 ; 反之， 如 果 分 隔 级 别 过 小 或 分 隔 边界 选取 不 当 ， 则 会 将 很 多 不 同类 别 的 实例 
混合 在 一 起 影响 学 习 。Weka 无 监督 离散 化 数值 型 属性 的 Java 类 是 
weka.filters.unsupervised.attribute.Discretize， 它 实现 了 等 宽 和 等 频 两 种 离散 化 方法 ， 其 中 ， 
等 宽 离 散 化 是 默认 方法 。 

等 宽 离散 化 (或 称 为 等 宽 分 箱 ) 经 常 造 成 实例 分 布 不 均匀 ， 有 的 间隔 区 域内 ( 箱 内 ) 包 含 很 
多 个 实例 ， 但 有 的 却 很 少 甚至 没有 。 这 样 会 降低 属性 辅助 构建 较 好 决策 结果 的 能 力 。 通 常 
也 允许 不 同 大 小 的 间隔 区 域 存在 ， 从 而 使 每 个 区 间 内 的 训练 实例 数量 相等 ， 这 样 的 效果 可 
能 会 好 一 些 ， 该 方法 称 为 等 频 离 散 化 (或 称 为 等 频 分 箱 )， 其 方法 是 : 根据 数 轴 上 实例 样本 
的 分 布 将 属性 区 间 分 隔 为 预先 设 定数 量 的 区 间 。 如 果 观 察 结果 区 间 的 直方 图 ， 会 发 现 其 形 
状 平 直 。 等 频 离 散 化 与 朴素 贝 叶 斯 学 习 方案 一 起 应 用 时 效果 较 好 。 但 是 ， 等 频 离散 化 也 没 
注意 实例 的 类 别 属 性 ， 仍 有 可 能 导致 不 好 的 区 域 划分 。 例 如 ， 如 果 一 个 区 域内 的 全 部 实 
例 都 属于 一 个 类 别 ， 而 下 一 个 区 域内 除了 第 一 个 实例 属于 前 一 个 类 别 外 ， 其 余 的 实例 都 属 
于 另 一 个 类 别 ， 那 么 ， 显 然 将 第 一 个 实例 包含 到 前 一 个 区 域 更 为 合理 。 

下 面 以 实例 说 明 这 两 种 方法 的 差异 。 首 先 ， 在 data 目录 中 查找 到 玻璃 数据 集 glass.arff 
文件 ， 并 将 它 加 载 至 探索 者 界面 ， 在 Preprocess 标签 页 中 查看 RI 属性 直方 图 ， 如 图 2.32 
所 示 。 实 施 无 监督 离散 化 过 滤器 ， 分 别 使 用 等 宽 和 等 频 两 种 离散 化 方法 ， 即 首先 使 
Discretize 的 全 部 选项 保持 默认 值 不 变 ， 然 后 将 useEqualFrequency 选项 的 值 更 改 为 True。 
得 到 离散 化 后 对 应 的 RI 属性 直方 图 分 别 如 图 2.33 和 图 2.34 所 示 。 


图 2.32 原始 的 RI 属性 直方 图 


EE Ey NE 2 Pe Be De 21 
a 
外 
PE rn 
二 一 一 一 Pa a oe 


图 2.33 等 宽 离散 化 后 的 RI 属性 2.34 ”等 频 离散 化 后 的 RI 属性 


从 图 2.33 和 图 2.34 中 容易 看 出 ， 等 宽 离散 化 将 数值 型 属性 从 最 小 值 到 最 大 值 平均 分 
为 十 份 ， 因 此 每 一 份 所 包含 的 实例 数量 就 各 不 相等 ， 而 等 频 离 散 化 按 数 值 型 属性 的 大 小 顺 
序 将 全 部 实例 平均 分 为 十 份 ， 每 份 所 包含 的 实例 数量 为 21 一 22， 因 此 ， 图 2.34 中 的 直方 
图 大 致 等 高 。 


读者 可 能 会 形成 一 个 错觉 ， 等 频 离 散 化 后 形成 的 直方 图 似乎 都 会 等 高 。 但 是 ， 如 果 等 
频 离散 化 Ba 属性 ， 再 检查 结果 ， 会 发 现 这 些 直方 图 严重 地 偏向 一 端 ， 也 就 是 根本 不 等 
频 ， 如 图 2.35 所 示 。 
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图 2.35 等 频 离散 化 后 的 Ba 属性 
这 又 是 为 什么 呢 ? 
仔细 观察 第 一 个 直方 图 的 标签 ， 其 值 为 "inf-0.03]， 即 区 间 大 于 负 无 穷 且 小 于 等 于 
0.03。 使 用 数据 集 编辑 器 打开 离散 化 前 的 原始 数据 集 ， 单 击 第 八 列表 头 ， 使 数据 集 按照 Ba 
属性 进行 排序 ， 如 图 2.36 所 示 。 可 以 看 到 ， 有 176 个 实例 的 Ba 属性 值 都 等 于 0.0， 由 于 这 
些 值 都 完全 相同 ， 没 有 办 法 将 它们 分 开 ， 因 此 图 2.35 中 的 直方 图 严重 地 偏向 一 端 。 


图 2.36 原始 数据 集 
读者 可 自行 检查 Fe 属性 ， 验 证 是 否 为 同样 的 原因 。 


总 结 : 一 般 情况 下 ， 等 频 离散 化 后 直方 图 大 致 等 高 。 但 如 果 有 很 多 实例 的 值 都 完全 相 
等 ， 等 频 离散 化 也 没 法 做 到 “等 频 ”。 

下 面 尝 试 有 监督 的 离散 化 技术 。 有 监督 的 离散 化 竭力 构建 一 种 间隔 ， 虽 然 各 个 间隔 之 
间 的 分 类 分 布 各 不 相同 ， 但 间隔 内 的 分 布 保持 一 致 。Weka 有 监督 离散 化 数值 型 属性 的 
Java 类 的 全 路 径 名 称 为 weka filters.supervised.attribute.Discretize。 首 先 ， 定 位 到 data 目录 
下 的 这 尾 花 数据 集 ， 加 载 iris.arff 文件 ， 施 加 有 监督 的 离散 化 方案 ， 观 察 得 到 的 直方 图 如 
图 2.37 所 示 。 
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图 2.37 有 监督 离散 化 后 的 直方 图 


请 读者 思考 一 下 ， 图 2.37 中 哪 一 个 经 过 离散 化 后 的 属性 最 具有 预测 能 力 ? 

显然 ， 只 有 petallength( 花 为 长 ) 和 petalwidth( 花 辨 宽 ) 最 具 竞 争 力 ， 因 为 它们 的 每 种 分 
类 都 已 经 接近 于 同一 种 颜色 。 再 经 过 仔细 对 比 可 以 发 现 ， 在 前 者 中 ， 有 1 个 virginica 实例 
错 分 到 versicolor 中 ， 有 6 个 versicolor 实例 错 分 到 virginica 中 ， 因 此 共有 7 个 错 分 的 实 
例 ; 而 在 后 者 中 ， 只 有 5 个 virginica 实例 错 分 到 versicolor 中 ， 有 1 个 versicolor 实例 错 分 
到 virginica 中 ， 因 此 共有 6 个 错 分 的 实例 。 从 而 得 出 结论 : 离散 化 后 的 petalwidth 属性 
最 具有 预测 能 力 。 

通常 将 离散 化 后 的 属性 编码 为 标 称 型 属性 ， 每 一 个 范围 给 定 一 个 值 。 然 而 ， 因 为 范围 

是 有 序 的 ， 离 散 化 后 的 属性 实际 上 是 一 个 有 序 标量 。 

除了 创建 多 元 属性 外 ， 有 监督 和 无 监督 两 种 离散 化 过 滤器 都 能 创建 二 元 属性 ， 只 要 将 
选项 makeBinary 设置 为 True 即 可 。 图 2.38 所 示 即 为 有 监督 的 离 ee 案 创建 二 元 属性 后 
得 到 的 结果 。 


图 2.38 有 监督 二 元 离散 化 后 的 直方 图 


将 图 2.38 和 图 2.37 做 一 个 比较 ， 便 知道 二 元 属性 就 是 指 每 个 属性 离散 化 后 只 有 两 种 
编码 。 初 看 起 来 ， 这 样 做 似乎 没有 什么 用 处 。 由 于 还 有 一 些 知 识 没 有 介绍 ， 后 文 “ 深 入 研 
究 离 散 化 ”部 分 再 讨论 这 个 问题 。 


2.3 分 类 


分 类 是 指 得 到 一 个 分 类 函数 或 分 类 模型 ( 即 分 类 器 )， 通 过 分 类 器 将 未 知 类 别 的 数据 对 
象 映射 到 某 个 给 定 的 类 别 。 

数据 分 类 可 以 分 为 两 步 。 第 一 步 建立 模型 ， 通 过 分 析 由 属性 描述 的 数据 集 ， 来 建立 反 
映 其 特性 的 模型 。 该 步骤 也 称 作 有 监督 的 学 习 ， 基 于 训练 集 而 导出 模型 ， 训 练 集 是 已 知 类 
别 标签 的 数据 对 象 。 第 二 步 使 用 模型 对 数据 对 象 进行 分 类 。 首 先 评估 模型 的 分 类 准确 度 或 
其 他 指标 ， 如 果 可 以 接受 ， 才 使 用 它 来 对 未 知 类 别 标签 的 对 象 进行 分 类 。 

预测 的 目的 是 从 历史 数据 记录 中 自动 推导 出 对 给 定数 据 的 推广 描述 ， 从 而 能 够 对 事先 
未 知 类 别 的 数据 进行 预测 。 分 类 和 回归 是 两 类 主要 的 预测 问题 ， 分 类 是 预测 离散 的 值 ， 回 
归 是 预测 连续 的 值 。 

Weka 提供 Classify 标签 页 来 构建 分 类 器 ， 如 图 2.39 所 示 。 
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2.39 ”Classify 标签 页 
下 面 详细 介绍 Classify 标签 页 的 功能 。 


2.3.1 分 类 器 选择 


在 Classify 标签 页 的 最 上 部 是 Classifier( 分 类 器 ) 选 项 组 ， 选 项 组 内 有 一 个 Choose 按钮 
和 一 个 分 类 器 文本 框 。 按 钮 用 于 选择 Weka 提供 的 分 类 器 ， 文 本 框 用 于 显示 当前 选择 的 分 
类 器 的 名 称 和 选项 。 单 击 文本 框 ， 会 弹出 一 个 通用 对 象 编辑 器 对 话 框 ， 与 过 滤器 的 对 象 编 
辑 器 对 话 框 的 功能 一 样 ， 可 以 用 来 设置 当前 分 类 器 的 选项 。 右 击 (或 在 按 住 Alt 键 和 Shift 
键 的 同时 单 击 ) 分 类 器 文本 框 ， 会 弹出 一 个 快捷 菜单 ， 选 择 Show properties 菜单 项 可 以 打开 
通用 对 象 编辑 器 对 话 框 ， 选 择 Copy configuration to clipboard 菜单 项 可 以 将 当前 设置 的 字符 
串 复 制 到 剪贴 板 ， 选 择 Edit configuration 菜单 项 可 以 修改 设置 ， 选 择 Enter configuration 菜 
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单项 可 以 直接 输入 设置 字符 串 ， 使 用 方法 与 过 滤器 的 相似 。 

在 Classify 标签 页 的 左 部 有 Test options( 测 试 选项 ) 选 项 组 。 该 选项 组 用 于 设置 测试 模 
式 ， 并 将 设置 的 选项 应 用 到 当前 选择 的 分 类 器 中 。 测 试 模式 分 为 以 下 四 种 。 

(1) Use training set( 使 用 训练 集 ): 直接 将 训练 集 实 例 用 于 测试 ， 评 估 分 类 器 预测 类 别 的 
性 能 。 这 种 方式 得 到 的 结果 往往 好 于 对 未 知 实例 的 测试 结果 ， 不 能 反映 分 类 器 的 泛 化 能 力 。 

(2) Supplied test set( 提 供 测试 集 ): 从 一 个 文件 中 加 载 一 组 测试 实例 ， 评 估 分 类 器 预测 
类 别 的 性 能 。 单 击 Set 按钮 会 弹出 一 个 对 话 框 ， 人 允许 用 户 选择 测试 集 文件 。 

(3) Cross-validation( 交 叉 验 证 ): 通过 交叉 验证 评价 分 类 器 。 在 Folds 文本 框 中 输入 交叉 
验证 的 折 数 ， 默 认为 十 折 交 叉 验证 。 

(4) Percentage split( 按 比例 分 割 ): 在 数据 集中 ， 取 出 特定 百分比 的 数据 用 于 训练 ， 其 
余 的 数据 用 于 测试 ， 评 价 分 类 器 预测 分 类 的 性 能 。 取 出 的 数据 量 取决 于 用 户 在 “%” 文 本 
框 中 输入 的 值 ， 默 认 取出 66% 的 数据 作为 训练 集 。 


王 注意 :无论 使 用 哪 种 测试 模式 作为 评估 方法 ， 输 出 模型 始终 都 是 从 全 部 训练 数据 中 
构建 而 得 。 


更 多 的 测试 选项 可 以 通过 单 击 More options 按钮 进行 设置 ， 如 图 2.40 所 示 。 
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图 2.40 更 多 测试 选项 

对 这 些 测 试 选项 的 解释 如 下 。 

(1) Output model( 输 出 模型 ): 输出 通过 完整 训练 集 得 到 的 分 类 模型 ， 以 便 能 够 浏览 、 
可 视 化 等 。 默 认 选 中 此 选项 。 

(2) Output per-class stats( 输 出 每 个 类 别 的 统计 信息 ): 输出 每 个 分 类 的 查 准 率 / 查 全 率 以 
及 True/False 的 统计 信息 。 默 认 选中 此 选项 。 

(3) Output entropy evaluation measures( 输 出 信 评 估 度 量 ): 输出 中 包括 凿 估 度 量 。 默 
认 取 消 选中 此 选项 。 

(4) Output confusion matrix( 输 出 混淆 矩阵 ): 输出 中 包含 分 类 器 预测 得 到 的 混淆 矩阵 。 
默认 选中 此 选项 。 

(5) Store predictions for visualization( 存 储 预测 以 便 可 视 化 ): 保存 分 类 器 的 预测 结果 ， 


以 便 用 于 可 视 化 。 默 认 选 中 此 选项 。 

(6) Error plot point size proportional to margin( 错 误 散 点 大 小 正比 于 预测 边际 ): 设置 所 绘 
制 的 错误 散 点 大 小 是 否 正比 于 预测 边际 ， 仅 用 于 分 类 。 

(7) Output predictions( 输 出 预测 ): 输出 预测 的 评估 数据 ， 默 认输 出 为 Null( 不 输出 )， 可 
选项 有 CSV、HTML、PlainText 和 XML 。 


送 注意 :， 在 交叉 验证 的 情况 下 ， 实 例 序号 不 对 应 于 其 在 数据 集中 的 位 置 。 


(8) Cost-sensitive evaluation( 代 价 敏感 评估 ): 将 代价 和 矩阵 用 于 评估 错误 率 。Set 按钮 多 
许 用 户 指定 所 使 用 的 代价 矩阵 。 

(9) Random seed for XVal / % Split(XVal / % 分 割 的 随机 种 子 ): 为 了 评估 目的 而 划分 数 
据 之 前 ， 指 定 将 数据 进行 随机 化 处 理 的 随机 种 子 。 

(10) Preserve order for % Split( 保 持 顺 序 按 百分比 分 割 ): 在 将 数据 划分 为 训练 集 和 测试 
集 之 前 禁止 随机 化 ， 即 保持 原来 的 顺序 。 

(11) Output source code( 输 出 源 代码 ): 如 果 分 类 器 能 够 输出 所 构建 模型 的 Java 源 代 
码 ， 可 以 在 这 里 指定 类 名 。 可 以 在 Classifier output( 分 类 器 输出 ) 区 域 打印 代码 。 

(12) Evaluation metrics( 评 价 指标 ): 设置 评价 指标 ， 可 选 指标 有 Correct( 正 确 率 )、 
Incorrect( 错 误 率 )、Kappa(Kappa 统计 )、Total cost( 总 代价 )、Average cost( 平 均 代 价 )、KB 
relative(Kononenko & Bratko 相关 系数 )、KB information(Kononenko & Bratko 信息 )、 
Correlation( 相 关 性 )、Complexity 0( 复 杂 度 0)、Complexity scheme( 复 杂 度 方案 )、 
Complexity improvement( 复 杂 度 改进 )、MAE( 平 均 绝 对 误差 )、RMSE( 均 方 根 误差 )、 
RAE( 相 对 绝对 误差 )、RRSE( 相 对 均 方 根 误 差 )、Coverage( 覆 盖 度 )、Region size( 区 域 大 
小 )、TP rate( 真 阳性 率 )、FP rate( 假 阳性 率 )、Precision( 查 准 率 )、Recall( 查 全 率 )、F- 
measure(F 度量 )、MCC(Matthews 相关 系数 )、ROC area( 接 受 者 操作 特征 曲线 下 面积 ) 和 
PRC area( 查 准 率 - 查 全 率 曲线 下 面积 )。 在 Weka 中 ， 进 行 训练 后 的 分 类 器 模型 将 用 于 预测 
某 个 单一 的 类 别 属性 ， 这 就 是 预测 的 目标 。 一 些 分 类 器 只 能 学 习 标 称 型 类 别 的 分 类 (分 类 问 
题 )， 一 些 分 类 器 只 能 学 习 数 值 型 类 别 的 分 类 (回归 问题 )， 还 有 一 些 分 类 器 能 学 习 两 者 。 

默认 情况 下 ， 数 据 集 的 最 后 一 个 属性 是 类 别 属性 。 如 果 想 训练 分 类 器 来 预测 其 他 属 
性 ， 可 以 单 击 Test options 选项 组 下 面 的 下 拉 列 表 框 ， 选 择 其 他 属性 作为 类 别 属性 。 


2.3.2 分 类 器 训练 


设置 好 分 类 器 、 测 试 选项 和 类 别 属性 后 ， 单 击 Start 按钮 就 启动 学 习 过 程 。 在 Weka 忙 
于 训练 分 类 器 的 同时 ， 小 鸟 会 站 起 来 左右 走动 。 用 户 随时 可 以 单 击 Stop 按钮 终止 训练 

训练 结束 后 ， 右 侧 的 Classifier output 区 域 会 显示 训练 和 测试 结果 的 文字 描述 ， 如 图 2.41 
所 示 。 同 时 ， 在 Result list( 结 果 列 表 ) 区 域 中 会 出 现 一 个 新 条 目 。 后 文 再 叙述 结果 列表 ， 下 
面 先 仔细 分 析 分 类 器 输出 的 文字 描述 。 
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— WE 
= 一 Run information —= 
Scheme: weka.classifiers.trees.J48 -C 0.25 -M2 
Relation: iris 
Instances: 150 
Attributes: 5 
sepallength 
aepalwidrh 
petallength 
petalwidth 
class 
Test mode: 10-fold cross-validation 


=== Classifier model (full training set) = 一 


J48 pruned tree 


petalwidth <= 0.6: Iris-setosa (50.0) 

petalwidth > 0.6 

petalwidth <= 1.7 

| petallength <= 4.9: Iris-versicolor (48.0/1.0) 
| petallength > 4.9 

| | petalwidth <= 1.5: Iris-virginica (3.0) 

| | petalwidth > 1.5: Iris-versicolor (3.0/1.0) 
petalwidth > 1.7: Iris-virginica (46.0/1.0) 


Number of Leaves : 5 


Size of the tree 


Time taken to build model: 0.03 seconds 


=== Stratified cross-validation === 
= 一 Summary === 


Correctly Classified Instances 144 96 
Incorrectly Classified Instances 6 4 要 
Kappa statistic 0.94 

Mean absolute error 0.035 

Root mean squared error 0.1586 

Relative absolute error 7.8705 $ 

Root relative squared error 33.6353 $ 

Coverage of cases (0.95 level) 96.6667 § 

Mean rel. region size (0.95 level) 33.7778 $ 

Total Number of Instances 150 


=== Detailed Accuracy By Class = 一 


TB Rate FP Rate Precision Recall F-Measure MCC ROC Area BRC Area Class 


0.98 0 1 0.98 0.99 0.985 0.99 0.987 Iris-setosa 

0.94 0.03 0.94 0.94 0.94 0.91 0.952 0.88 Iris-versicolor 

0.96 0.03 0.941 0.96 0.95 0.925 0.961 0.905 Iris-virginica 
Weighted Avg. 0.96 0.02 0.96 0.96 0.96 0.94 0.968 0.924 


=== Confusion Matrix === 


a b c <-- classified as 
49 1 0 | a= Iris-setosa 
047 3 | b = Iris-versicolor 
0 248 1 c= Iris-virginica 


图 2.41 分 类 器 输出 示例 


2.3.3 ”分 类 器 输出 
拖 动 Classifier output 区 域 右 侧 的 滚动 条 ， 可 以 浏览 全 部 结果 文本 。 在 文本 区 域 中 按 住 


六 
@ 


Alt 键 和 Shift 键 的 同时 单 击 ， 会 弹出 一 个 对 话 框 ， 可 以 以 各 种 不 同 的 格式 (目前 支持 
BMP、JPEG、PNG 和 EPS) 保 存 所 显示 的 输出 。 当 然 ， 也 可 以 调整 探索 者 界面 的 大 小 ， 得 
到 更 大 的 显示 面积 。 输 出 分 为 以 下 几 个 部 分 。 

(1) Run information( 运 行 信息 ): 提供 处 理 过 程 所 涉及 的 信息 列表 ， 如 学 习 方 案 及 选项 
(Scheme)、 关 系 名 (Relation)、 实 例 (Instances)、 属 性 (Attributes) 和 测试 模式 (Test mode)。 

(2) Classifier model(full training set)( 分 类 器 模型 (完整 的 训练 集 )): 完整 训练 数据 生成 的 
分 类 模型 的 文字 表述 。 本 例 选择 J48 决策 树 构建 分 类 模型 ， 因 此 以 文字 方式 描述 决策 树 。 
如 果 选 择 其 他 分 类 器 模型 ， 则 显示 相应 的 文字 表述 。 

(3) 根据 所 选择 的 测试 模式 ， 显 示 不 同文 字 。 例 如 ， 如 果 选 择 十 折 交 叉 验 证 ， 显 示 
Stratified cross-validation; 如 果 选 择 使 用 训练 集 ， 显 示 Classifier model (full training set)， 等 
等 。 由 于 评估 内 容 较 多 ， 将 结果 分 解 显示 如 下 。 

@ Summary( 总 结 ): 一 个 统计 列表 ， 根 据 所 选择 的 测试 模式 ， 总 结 分 类 器 预测 实例 真 
实 分 类 的 准确 度 。 具 体 项 目 如 下 。 

e@ ”Correctly Classified Instances( 正 确 分 类 的 实例 ): 显示 正确 分 类 的 实例 的 绝对 数量 

和 百分比 。 
@ ”Incorrectly Classified Instances( 错 误 分 类 的 实例 ): 显示 错误 分 类 的 实例 的 绝对 数 
量 和 百分比 。 

e ”Kappa statistic(Kappa 统计 ): 显示 Kappa 统计 量 ，[-1,1] 范 围 的 小 数 。Kappa 统计 
指标 用 于 评判 分 类 器 的 分 类 结果 与 随机 分 类 的 差异 度 。K=1 表明 分 类 器 完全 与 随 
机 分 类 相 异 ，K=0 表明 分 类 器 与 随机 分 类 相同 ( 即 分 类 器 没有 效果 )，K=-1 表明 分 
类 器 比 随机 分 类 还 要 差 。 一 般 来 说 ，Kappa 统计 指标 的 结果 是 与 分 类 器 的 AUC 
指标 以 及 准确 率 成 正 相关 的 ， 所 以 该 值 越 接 近 1 越 好 。 
Mean absolute error( 平 均 绝对 误差 ): 显示 平均 绝对 误差 。 
Root mean squared error( 均 方 根 误差 ); 显示 均 方 根 误差 。 
Relative absolute error( 相 对 绝对 误差 ): 显示 相对 绝对 误差 ， 百 分 数 。 
Root relative squared error( 相 对 均 方 根 误差 ); 显示 相对 均 方 根 误差 ， 百 分 数 。 
Coverage of cases(0.95 level)( 案 例 的 覆盖 度 ):， 显示 案例 的 覆盖 度 ， 该 值 是 分 类 器 
使 用 分 类 规则 对 全 部 实例 的 覆盖 度 ， 百 分 数 越 高 说 明 该 规则 越 有 效 。 

@ ”Mean rel. region size(0.95 level)( 平 均 相 对 区 域 大 小 ): 显示 平均 相对 区 域 大 小 ， 百 

分 数 。 

e@ ”Total Number of Instances( 实 例 总 数 ):， 显示 实例 总 数 。 

@ Detailed Accuracy By Class( 按 类 别 的 详细 准确 性 ): 按 每 个 类 别 分 解 的 更 详细 的 分 
类 器 的 预测 精确 度 。 结 果 以 表格 形式 输出 ， 其 中 ， 表 格 列 的 含义 如 下 。 

。 ”TP Rate( 真 阳性 率 ): 显示 真 阳 性 率 ，[0.1] 范 围 的 小 数 。 

e ”FP Rate( 假 阳性 率 ): 显示 假 阳性 率 ，[0.1] 范 围 的 小 数 。 另 外 ， 常 使 用 TN 和 FN 

分 别 代表 真 阴 性 率 和 假 阴 性 率 。 
@ ”Precision( 查 准 率 ): 显示 查 准 率 ，[0.1] 范 围 的 小 数 。 查 准 率 用 于 衡量 检索 系统 拒绝 
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e@ ”Recall( 查 全 率 ): 显示 查 全 率 ，[0.1] 范 围 的 小 数 。 查 全 率 用 于 衡量 检索 系统 检 出 相 
si > 检索 到 的 相关 的 文档 量 TP 
言 息 的 能 力 ， 公式 为 = 和 
关 信息 的 能 力 ， 计 算 公式 为 Recal- 全 部 相关 的 文档 总 量 “TP+EN 
e@ ”F-Measure(F 度量 ): 显示 下 度量 值 ，[0.1] 范 围 的 小 数 。F 度量 是 查 准 率 和 查 全 率 的 调 
二 _2x 查 全 率 x 查 准 率 _ 2xTP 

和 平均 数 ， 其 计算 公式 为 F-Measure= 查 全 率 ; 查 淮 率 “JIXTPTiPTE。 

e MCC(The Matthews Corelation Coefficient，Matthews 相关 系数 ): 显示 Matthews 相关 系 

数 ，[0,1] 范 围 的 小 数 。 这 是 一 个 针对 二 元 分 类 的 有 趣 性 能 指标 ， 特 别 是 各 个 类 别 在 数量 上 

不 平衡 时 。 其 计算 公式 为 MCC = TX TN HEXEN 
VTP+FP)x(TP+FN)x(TN+FP)x(IN+FN) 

。 ”ROC Area( 接 受 者 操作 特征 曲线 下 面积 ): 显示 ROC 面积 ，[0.1] 范 围 的 小 数 。 
ROC 面积 一 般 大 于 0.5， 这 个 值 越 接近 1， 说 明 模 型 的 分 类 效果 越 好 。 这 个 值 在 
0.5 一 0.7 时 有 较 低 准确 度 ， 在 0.7 一 0.9 时 有 一 定 准 确 度 ， 在 0.9 以 上 时 有 较 高 准 
确 度 。 如 果 该 值 等 于 0.5， 说 明 分 类 方法 完全 不 起 作用 ， 没 有 价值 ， 而 小 于 0.5 的 
值 不 符合 真实 情况 ， 在 实际 中 极 少 出 现 。 

e ”PRC Area( 查 准 率 - 查 全 率 曲线 下 面积 ): 显示 PRC 面积 ，[0,1] 范 围 的 小 数 。 

e@ ”Class( 类 别 )， 显 示 类 别 标签。 

表格 前 面 几 行 按 类 别 显示 预测 精确 度 ， 最 后 一 行 是 各 个 类 别 的 加 权 平 均 (Weighted 
Avg.)。 

@ Confusion Matrix( 混 淆 矩阵 ): 显示 每 一 个 类 别 有 多 少 个 实例 。 和 矩阵 元 素 显 示 测 试 的 
样本 数 ， 表 行为 实际 的 类 别 ， 表 列 为 预测 的 类 别 。 

@ Source code(optional)( 源 代码 (可 选 ): 如 果 用 户 在 图 2.40 所 示 的 Classifier 
evaluation options 对 话 框 中 选中 Output source code( 输 出 源 代码 ) 复 选 框 ， 在 此 位 置 将 显示 
Java 源 代码 。 

前 文 提 到 过 ， 一 个 分 类 器 训练 完成 后 ， 结 果 列 表 中 就 会 出 现 一 个 条 目 ， 再 训练 一 次 ， 
又 会 再 出 现 一 个 条 目 。 单 击 不 同 条 目 ， 可 以 来 回 切 换 显示 各 次 训练 的 结果 。 按 Delete 键 可 
以 从 结果 中 删除 选 定 的 条 目 。 右 击 任 意 一 个 条 目 ， 会 弹出 一 个 快捷 菜单 ， 里 面包 含 如 下 菜 
单项 。 

(1) View in main window( 在 主 窗 口中 查看 ): 在 主 窗口 中 显示 输出 ， 与 单 击 该 条 目的 功 
能 相同 。 

(2) View in separate window( 在 单独 的 窗口 中 查看 ): 打开 一 个 新 的 独立 窗口 ， 查 看 
结果 。 

(3) Save result buffer( 保 存 结果 缓冲 区 ): 弹出 一 个 对 话 框 ， 将 文本 输出 保存 为 文本 
文件 

(4) Delete result buffer( 删 除 结果 缓冲 区 ): 删除 训练 结果 。 

(5) Load model( 加 载 模型 ):， 从 二 进 制 文件 中 加 载 一 个 预先 训练 过 的 模型 对 象 。 

(6) Save model( 保 存 模型 ): 将 模型 对 象 保存 为 二 进 制 文件 ， 对 象 以 Java 序列 化 对 象 的 
格式 保存 。 

(7) Re-evaluate model on current test set( 重 新 在 当前 测试 集 上 评估 模型 ): 使 用 在 


Supplied test set( 提 供 测试 集 ) 选 项 下 通过 Set 按钮 设置 的 数据 集 ， 测 试 已 构建 好 的 模型 的 
性 能 。 

(8) Re-apply this models configuration( 重 新 应 用 本 模型 的 设置 )。 

(9) Visualize classifier errors( 可 视 化 分 类 器 错误 ): 弹出 一 个 可 视 化 的 窗口 ， 将 分 类 结果 
以 散 点 图 形式 表示 。 正 确 分 类 的 实例 表示 为 小 又 号 ， 而 错误 分 类 的 实例 表示 为 小 空心 方块 。 

(10) Visualize tree or Visualize graph( 可 视 化 树 或 可 视 化 图 形 ): 如 果 分 类 结果 可 以 可 视 
化 ， 如 决策 树 或 贝 叶 斯 网 络 ， 选 择 本 菜单 项 会 弹出 一 个 分 类 器 模型 结构 的 图 形 化 表示 。 如 
果 已 经 构建 了 一 个 贝 叶 斯 分 类 器 ， 图 形 可 视 化 选项 就 会 出 现 。 在 树 可 视 化 工具 中 ， 可 以 右 
击 空白 区 域 带 出 快捷 菜单 ， 拖 动 鼠标 可 移动 图 形 ， 单 击 某 个 节点 可 查看 训练 实例 ， 按 住 
Ctrl 键 的 同时 单 击 可 缩小 视图 ， 按 住 Shift 键 的 同时 拖 动 一 个 方 框 可 放大 视图 。 图 形 可 视 化 
工具 的 使 用 很 直观 、 友 好 。 

(11) Visualize margin curve( 可 视 化 边缘 曲线 ): 生成 散 点 图 ， 说 明 预 测 边缘 。 将 边缘 定 
义 为 实际 的 分 类 预测 概率 与 预测 为 其 他 类 别 的 最 高 概率 之 间 的 差 值 。 例 如 ， 通 过 增加 训练 
数据 的 边缘 ，Boosting 算法 可 以 在 测试 数据 上 达到 更 好 的 性 能 。 

(12) Visualize threshold curve( 可 视 化 阔 值 曲线 ): 通过 改变 不 同类 别 之 间 的 阔 值 得 到 的 
预测 ， 生 成 说 明 权衡 (trade-offs) 的 散 点 图 。 例 如 ， 如 果 默 认 准 值 为 0.5， 对 于 预测 为 “ 正 ” 
的 实例 ， 预 测 为 “ 正 ” 的 概率 必须 大 于 0.5。 该 散 点 图 可 用 于 对 查 准 率 / 查 全 率 进行 权衡 的 
可 视 化 ， 如 ROC 曲线 分 析 ( 真 阳性 率 vs 假 阳 性 率 ) 和 其 他 类 型 的 曲线 。 

(13) Cost/Benefit analysis( 代 价 /收益 分 析 ): 对 数据 集 属性 的 不 同 结果 进行 评价 分 析 给 出 
分 析 曲 线 ， 单 击 其 中 一 项 会 给 出 分 析 曲 线 。 

(14) Visualize cost curve( 可 视 化 代价 曲线 ): 产生 散 点 图 ， 给 出 一 个 明确 表述 的 预期 
代价 。 

(15) Plugins( 插 件 ): 当 有 可 视 化 插件 可 供 选择 (默认 值 为 无 ) 时 才 会 出 现 该 菜单 项 。 


2.3.4 “分 类 算法 介绍 


分 类 和 回归 是 数据 挖掘 和 机 器 学 习 中 极为 重要 的 技术 ， 其 中 分 类 是 指 利用 已 知 的 观测 
数据 构建 一 个 分 类 模型 ， 常 常 称 为 分 类 器 ， 来 预测 未 知 类 别 的 对 象 的 所 属 类 别 。 分 类 和 回 
归 的 不 同 点 在 于 ， 分 类 的 预测 输出 是 离散 型 类 别 值 ， 而 回归 的 预测 输出 是 连续 型 数值 。 因 
此 ，Weka 将 分 类 和 回归 都 归 为 同一 类 算法 。 

本 节 介 绍 常用 的 分 类 算法 ， 包 括 线 性 回归 、 决 策 树 、 决 策 规则 、 支 持 向 量 机 ， 将 贝 叶 
斯 网 络 和 神经 网 络 放 到 第 6 章 讲解 。 由 于 Weka 实现 的 分 类 算法 数量 众多 ， 特 点 各 异 ， 无 
法 在 较 短篇 幅 中 讲 清楚 ， 读 者 可 根据 自己 的 需要 查阅 附录 介绍 和 相关 资料 。 

1. 线性 回归 

线性 回归 (linear regression) 是 利用 数理 统计 中 的 回归 分 析 ， 来 确定 多 个 变量 之 间 相 互 依 
赖 的 定量 关系 的 一 种 统计 分 析 方法 ， 应 用 十 分 广泛 。 有 具体 来 说 ， 它 利用 称 为 线性 回归 方程 
的 最 小 二 乘 函数 对 一 个 或 多 个 自 变 量 ( 常 表示 为 区 和 一 个 标量 型 因 变 量 ( 常 表示 为 7 之 间 的 
关系 进行 建 模 ， 这 种 函数 是 一 个 或 多 个 称 为 回归 系数 的 模型 参数 的 线性 组 合 。 只 涉及 一 个 
自 变 量 的 称 为 简单 线性 回归 ， 涉 及 多 个 自 变 量 的 称 为 多 元 线性 回归 。 
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线性 回归 的 主要 目标 是 用 于 预测 。 线 性 回归 使 用 观测 数据 集 的 y 值 和 x 值 来 拟 合 一 个 
预测 模型 ， 构 建 这 样 一 个 模型 后 ， 如 果 给 出 一 个 新 的 x 值 ， 但 没有 给 出 对 应 的 y 值 ， 这 时 
就 可 以 用 预测 模型 来 预测 y 值 。 

给 定 p 维 数据 集 {x%,,…, 芒 , 久 }(i=1,2,…, 入 ) ， 线 性 回归 模型 假设 因 变量 y, 和 自 变 量 x 
之 间 是 线性 关系 ， 即 

B=W+t Wt tw xy, = XW i=12.…,N 
其 中 ， 假 定 x。=1， 将 p 维 扩展 为 ptl1 维 ; 粗 体 字 表 示 向 量 ， 上 标 T 表示 算 阵 转 置 ，w 是 
回归 系数 的 向 量 ， xpw 是 向 量 xz 和 w 的 内 积 。 
当 p=1 时 ， 上 式 可 简单 表示 为 如 下 的 一 元 线性 回归 的 形式 : 
态 = 基 十 

其 中 ， 假 定 yy 的 方差 为 常数 ， 回 归 系数 w, 和 w 对 应 直线 在 纵 轴 的 截 距 和 斜率 ， 可 以 使 用 
下 列 算 式 来 估计 : 


>c -7)0, -D) 


久 : 忆 


W =-—wWx 
其 中 ， 下 是 ,x%,…,xwy 的 均值 ， 了 了 是,y,,…,yy 的 均值 。 
通过 N 个 数据 点 对 回归 方程 进行 拟 合 ， 估 算出 回归 系数 ， 就 得 到 一 条 直线 ， 通 过 这 条 
直线 就 可 以 预测 未 知 数据 点 的 目标 变量 的 值 ， 如 图 2.42 所 示 。 


图 2.42 一 元 线性 回归 


从 第 1 章 可 以 知道 ，CPU 数据 集 就 非常 适合 用 线性 回归 进行 处 理 。 当 拟 合 出 回归 公式 
之 后 ， 就 可 用 于 预测 新 测试 实例 的 CPU 性 能 。 

2. 决策 树 

决策 树 (decision tree) 是 一 种 预测 模型 ， 它 包括 决策 节点 、 分 支 和 叶 节 点 三 个 部 分 。 其 
中 ， 决 策 节点 代表 一 个 测试 ， 通 常 代表 待 分 类 样本 的 某 个 属性 ， 在 该 属性 上 的 不 同 测试 结 
果 代 表 一 个 分 支 ， 分 支 表 示 某 个 决策 节点 的 不 同 取 值 。 每 个 叶 节点 存放 某 个 类 别 标签 ， 表 
示 一 种 可 能 的 分 类 结果 ， 括 号 内 的 数字 表示 到 达 该 叶 节 点 的 实例 数 。 


使 用 训练 集 用 决策 树 算法 进行 训练 ， 经 过 训练 之 后 ， 学 习 方 案 只 需要 保存 类 似 于 
图 2.43 所 示 的 树 形 结构 ， 而 不 像 最 近邻 学 习 等 消极 学 习 算法 那样 ， 不 保存 模型 ， 只 有 在 需 
要 分 类 时 才 去 查找 与 测试 样本 最 为 相近 的 训练 样本 。 决 策 树 对 未 知 样本 的 分 类 过 程 是 ， 自 
决策 树 根 节 点 开始 ， 自 上 向 下 沿 某 个 分 支 向 下 搜索 ， 直 到 到 达 叶 节点 ， 叶 节点 的 类 别 标签 
就 是 该 未 知 样本 的 类 别 。 


=sunnmy”= overcast “= rainy 


图 2.43 决策 树 示例 
对 于 如 图 2.43 所 示 的 决策 树 ， 假 如 有 一 个 新 的 未 知 样本 ， 属 性 值 如 下 : 


outlook = rainy, temperature = cool, humidity = high, windy = FALSE 


问 是 否 能 play? 

按照 决策 树 的 分 类 过 程 ， 自 根 节点 outlook 开始 ， 由 于 outlook=rainy， 因 此 应 该 沿 着 
最 右边 的 分 支 向 下 搜索 ， 下 一 个 节点 是 windy， 由 于 windy=FALSE， 因 此 再 次 沿 着 最 右边 
的 分 支 向 下 搜索 ， 遇 到 类 别 标签 为 yes 的 叶 节 点 ， 因 此 推断 未 知 样本 的 类 别 标签 是 yes， 即 
可 以 play。 

决策 树 算 法 通过 将 训练 集 划分 为 较 纯 的 子 集 ， 以 递归 的 方式 建立 决策 树 。 有 多 种 决策 
树 算法 ， 下 面 介绍 使 用 广泛 的 C4.5 和 CART 算法 。 

1) C4.5 算法 

C4.5 算法 是 澳大利亚 悉尼 大 学 Ross Quinlan 教授 于 1993 年 对 早先 的 ID3 算法 进行 改 
进而 提出 来 的 。C4.5 算法 在 以 下 几 个 方面 对 ID3 算法 进行 了 改进 。 

(1) 能 够 处 理 连续 型 属性 和 离散 型 属性 的 数据 。 

(2) 能 够 处 理 具 有 缺失 值 的 数据 。 

(3) 使 用 信息 增益 率 作为 决策 树 的 属性 选择 标准 。 

(4) 对 生成 树 修剪 ， 降 低 过 拟 合 。 

C4.5 算法 可 以 使 用 通用 的 称 为 TreeGrowth 的 决策 树 归 纳 算法 作为 生长 树 算法 。 该 算 
法 的 输入 是 训练 集 E 和 属性 集 F。 算 法 递归 地 选择 最 佳 属性 以 划分 数据 ， 并 扩展 树 的 叶 节 
点 ， 直 到 满足 结束 条 件 。 算 法 的 伪 代 码 如 算法 2.1 所 示 。 


算法 2.1 决策 树 归纳 算法 框架 


TreeGrowth (E, F) 
if stopping cond(E, F) = true then 
leaf = createNode() 
leaf.label = Classify (E) 
return leaf 
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else 
root = createNode() 
root.test cond = find best split(E, F) 
令 V= {v | v 是 root.test_cond 的 一 个 可 能 的 输出 } 
for each VE V do 
E,= {e | root.test cond(e) =Vand e € E} 
child = TreeGrowth(E,, 
添加 child 为 root 的 子 节点 ， 并 将 边 (root 一 一 >child) 标 记 为 v 
end for 
end if 
return root 
算法 所 使 用 的 函数 如 下 。 
(1) createNode0 函 数 : 为 决策 树 创建 新 节点 ， 以 扩展 决策 树 。 决 策 树 的 节点 要 么 有 一 
个 测试 条 件 ， 记 为 node.test_cond; 要 么 有 一 个 类 别 标签 ， 记 为 node.label。 
(2) find_best_split() 函 数 :确定 应 当选 择 哪个 属性 作为 划分 训练 记录 的 测试 条 件 。 可 以 
使 用 多 种 不 纯 性 度量 来 评估 划分 ， 以 选择 测试 条 件 。 常 用 度量 有 信息 烂 和 Gini 指标 等 。 
C4.5 使 用 的 度量 称 为 信息 增益 率 (GainRatio)， 是 信息 炳 的 变形 。 原 来 的 算法 直接 使 用 
信息 迷 的 增益 ， 会 因 某 属 性 有 较 多 类 别 取 值 因 而 导致 有 偏 大 的 信息 粹 ， 从 而 更 容易 被 选择 
为 划分 节点 。 信 息 增益 率 考虑 了 分 裂 信 息 的 “代价 ”， 能 够 部 分 抵消 属性 取 值 数量 带 来 的 
影响 ， 因 此 它 是 C4.5 对 ID3 算法 的 重要 改进 之 一 。 
(3) Classify0 函 数 :确定 叶 节 点 的 类 别 标签 。 对 于 每 个 叶 节 点 1， 令 p(i 10 表示 该 节点 
上 属于 类 别 i 的 训练 记录 所 占 的 比例 ， 在 大 多 数 情况 下 ， 将 叶 节 点 指派 为 具有 多 数 记录 的 
类 别 ， 即 


leaflabel = argmax p(il|?) 


其 中 ， 操 作 argmax 返回 最 大 化 p(i | 办 的 参数 i。 

(4) stopping_cond() 函 数 : 通过 检查 是 否 所 有 的 记录 都 属于 同一 个 类 别 ， 或 者 都 具有 相 
同 的 属性 值 ， 决 定 是 否 终止 决策 树 的 增长 。 终 止 递归 函数 的 另 一 种 方式 是 ， 检 查 记 录 数 是 
否 小 于 某 个 最 小 阔 值 。 

C4.5 算法 用 到 以 下 几 个 公式 。 

(1) 信息 炳 : 

Entropy(S) = 之 Plog, p, 
其 中 ，S 为 训练 集 jp, (二 1,2…,m) 为 具有 m 个 类 别 标签 的 类 别 属性 C 在 所 有 样本 中 出 现 的 
频率 。 

(2) 划分 信息 炳 。 

假设 用 属性 4 来 划分 5 中 的 数据 ， 计 算 属 性 4 对 集合 5 的 划分 炳 值 Entropy,(S) 。 

如 果 4 为 离散 型 ， 有 个 不 同 取 值 ， 则 属性 4 依据 这 大 个 不 同 取 值 将 8 划分 为 个 子 
集 {51,52…,Sk}， 属 性 4 划分 S 的 信息 科 为 


S15,| 
Entropy,(S)= > el YS) 
| 


其 中 ，|S4 和 |S| 分 别 为 5 和 5 中 包含 的 样本 个 数 。 


如 果 属 性 4 为 连续 型 数据 ， 则 按 属性 4 的 取 值 递增 排序 ， 将 每 对 相 邻 值 的 中 点 看 作 可 

能 的 分 裂 点 ， 对 每 个 可 能 的 分 裂 点 ， 计 算 
_ 人 | ls 
Entropy,(S) = 辣 Entropy(S, )+ Ce) 

其 中 ，St 和 Se 分 别 对 应 于 该 分 裂 点 划分 的 左右 两 部 分 子 集 。 选 择 Entropy4(S) 值 最 小 的 分 
裂 点 作为 属性 4 的 最 佳 分 裂 点 ， 并 以 该 最 佳 分 裂 点 按 属性 4 对 集合 8 的 划分 粒 值 作为 属性 
4 划分 5 的 炉 值 。 

(3) 信息 增益 。 

按 属性 4 划分 数据 集 5 的 信息 增益 Gain(S, 4) 等 于 样本 集 S 的 炉 减 去 按 属性 4 划分 5 


后 的 样本 子 集 的 和 : 


Gain(S, A) = Entropy($)— Entropy,(S) 
(4) 分 裂 信息 。 
C4.5 引入 属性 的 分 裂 信息 来 调节 信息 增益 : 
5 |S, | 


1S,| 
SplitE(A) =-y 一- log, 于 
plitE(A) 2 sss 


(5) 信息 增益 率 : 
Gain(A) 
SplitE(A) 

信息 增益 率 将 分 裂 信 息 作为 分 母 ， 属 性 取 值 数 目 越 大 ， 分 裂 信息 值 越 大 ， 从 而 部 分 抵 
消 了 属性 取 值 数 目 所 带 来 的 影响 。 

下 面 以 天 气 数据 集 (weather.nominal.arff 文件 ) 为 例 ， 演 示 C4.5 算法 构建 决策 树 的 过 
程 。 天 气 数据 集 内 容 可 参见 第 1 章 。 

第 一 步 ， 计 算 所 有 属性 划分 数据 集 8 所 得 的 信息 增益 。 

令 5 为 天 气 数据 集 ， 有 14 个 样本 。 类 别 属性 play 有 2 个 值 {C=yes，Cs=no}。14 个 样 
本 中 ，9 个 样本 的 类 别 标签 取 值 为 yes，5 个 样本 的 类 别 标签 取 值 为 no。 即 ，Cl=yes 在 8 
中 出 现 的 概率 为 014，C2=no 出 现 的 概率 为 /14。 因 此 5 的 焙 为 

Entropy(S) = Enuopy[ 呈 习 = = 位 人 和 加 =0.94 


GainRatio(A) = 


14°14 14 14 14 14 
下 面 计算 按 属性 4 划分 5 后 的 样本 子 集 的 信息 粹 。 
首先 看 属性 windy， 它 有 2 个 可 能 的 取 值 {false, true}， 将 5S 划分 为 2 个 子 集 {51,，52}， 
取 值 为 false 的 样本 子 集 % 共有 8 个 样本 ， 取 值 为 true 的 样本 子 集 5, 共 有 6 个 样本 。 
对 样本 子 集 S1，play=yes 有 6 个 样本 ，play=no 有 2 个 样本 ， 则 


6 6 站 
Entropy(S ) =——log, ——=log, == 0.811 
ntropy(S,) gS8 gg 


对 样本 子 集 $,，play=yes 有 3 个 样本 ，play=no 有 3 个 样本 ， 则 
-iog: 二 -1 


3 
Entropy(S, ) = 一 一 lo 
py(S,) = 一 5log 


利用 属性 windy 划分 5 后 的 炳 为 
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Entropywaw (S) = De Entropy(S) = EE 加 


全 二 Entropy(S) 十 Entropy(S,) =0.571x0.811+0.428x1=0.891 


按 属性 windy 划分 数据 集 8 所 得 的 信息 增益 值 为 
Gain(S, windy) = Entropy(S$)— Entropy,iwa, (S) = 0.94—0.891= 0.049 

同 理 ， 得 到 S 对 其 他 所 有 属性 的 信息 增益 ， 列 示 如 下 : 

Gain(S,outlook) = 0.246 

Gain(S,temperature) = 0.029 

Gain(S,humidity) = 0.152 
第 二 步 ， 计 算 各 个 属性 的 分 裂 信 息 和 信息 增益 率 。 
以 outlook 属性 为 例 ， 取 值 为 overcast 的 样本 有 4 条 ， 取 值 为 rainy 的 样本 有 5 条 ， 取 

值 为 sunny 的 样本 有 5 条 ， 因 此 


| Entropy(S, ) 


SplitE or = - 语 g 说 和 二 os， 二 一 于 ios， 去 =1.576 
GainRatio a. = i = 2 =0.156 

同 理 ， 计 算 其 他 属性 的 信息 增益 率 : 
GainRatio -=_Gainwwewe _ 0029 _ 0 019 


PO SplitE, ww。 1.556 
RE _ Gainwuay 0.152 _ 
SainRatiowmay ST iE 一 
Gainvaa 0.049 
SplitE sy ”0.985 
第 三 步 ， 将 信息 增益 率 取 值 最 大 的 那个 属性 作为 分 裂 节 点 ， 因 此 最 初 选择 outlook 属 

性 作为 决策 树 的 根 节点 ， 产 生 3 个 分 支 ， 如 图 2.44 所 示 。 


GainRatio,i,s, — =0.0497 


sunny rainy 


Overcast 


图 2.44 选择 第 一 个 决策 节点 


第 四 步 ， 对 根 决策 节点 的 三 个 不 同 取 值 的 分 支 ， 递 归 调用 以 上 方法 ， 求 子 树 ， 最 后 得 
到 的 决策 树 如 前 面 的 图 2.43 所 示 。 

C4.5 算法 还 对 生成 树 进行 修剪 ， 以 克服 过 拟 合 。 限 于 篇 幅 ， 就 不 展开 来 介绍 了 。 

C4.5 在 Weka 中 的 实现 是 J48 决策 树 ， 后 文 将 介绍 J48 的 使 用 。 


2) CART 算法 

CART(Classification and Regression Tree， 分 类 及 回归 树 ) 算 法 由 美国 斯 坦 福 大 学 和 加 州 
大 学 伯克利 分 校 的 Breiman 等 人 于 1984 年 提出 。CART 决策 树 采 用 二 元 递归 划分 方法 ， 能 
够 处 理 连 续 型 属性 和 标 称 型 属性 作为 预测 变量 和 目标 变量 下 的 分 类 。 当 输出 变量 为 标 称 型 
属性 数据 时 ， 所 建立 的 决策 树 称 为 分 类 树 ， 用 于 预测 离散 型 标 称 类 别 。 当 输出 变量 为 数值 
型 变量 时 ， 所 建立 的 决策 树 称 为 回归 树 ， 用 于 预测 连续 型 数值 类 别 。 

CART 算法 同样 使 用 算法 2.1 所 示 的 决策 树 归 纳 算 法 框架 ， 但 与 C4.5 算法 不 同 ， 
CART 为 二 叉 分 支 ， 而 C4.5 可 以 为 多 又 分 支 ; CART 的 输入 变量 和 输出 变量 可 以 是 分 类 型 
和 数值 型 ， 而 C4.5 的 输出 变量 只 能 是 分 类 型 ， CART 使 用 的 不 纯度 量 是 Gini 系数 ， 而 
C4.5 使 用 信息 增益 率 ; 另外， 两 者 对 决策 树 的 修剪 方法 不 同 。 

CART 算法 使 用 Gini 系数 来 度量 对 某 个 属性 变量 测试 输出 的 两 组 取 值 的 差异 性 ， 理 想 
的 分 组 应 该 尽量 使 两 组 中 样本 输出 变量 取 值 的 差异 性 总 和 达到 最 小 ， 即 “纯度 ”最 大 ， 也 
就 是 使 两 组 输出 变量 取 值 的 差异 性 下 降 最 快 ，“ 纯 度 ” 增 加 最 快 。 

设 ! 为 分 类 回归 树 中 的 某 个 节点 ，Gini 系数 计算 公式 为 

类 
GD)=1- pO) 


总 
其 中 ,为 当前 属性 下 测试 输出 的 类 别 数 ，p(j 1 六 为 节点 上 中 样本 测试 输出 取 类 别 .7 的 概率 。 
设 上 为 一 个 节点 ， 为 该 节点 的 一 个 属性 分 支 条 件 ， 该 分 支 条 件 将 节点 上 中 的 样本 分 


别 分 到 左 分 支 Si 和 右 分 支 Sk 中 ， 称 
AG(E.D) = G(D) — 


sl Ga) lS 
FT 


为 在 分 支 条 件 上 活 下 节点 上 的 差异 性 损失 。 其 中 ，G(D 为 划分 前 测试 输出 的 Gini 系数 ，|Sg| 和 
IS 分 别 为 划分 后 左右 分 支 的 样本 个 数 。 为 使 节点 上 尽 可 能 纯 ， 需 选择 某 个 属性 分 支 条 件 5 
使 该 节点 的 差异 性 损失 尽 可 能 大 。 用 <(D) 表示 所 考虑 的 分 支 条 件 $ 的 全 体 ， 则 选择 分 支 条 
件 应 为 


Cu) 


Ss = argmax AG(E.1) 
sec(n) 


对 于 CART 分 类 树 的 属性 选择 ， 针 对 不 同 的 属性 类 型 (分 类 型 和 数值 型 )， 方 法 有 所 不 
同 。 对 于 分 类 型 属性 ， 由 于 CART 只 能 建立 二 叉 树 ， 对 于 取 多 个 值 的 属性 变量 ， 需 要 将 多 
类 别 合 并 成 两 个 类 别 ， 形 成 “ 超 类 ”， 然 后 计算 两 “ 超 类 ”下 样本 测试 输出 取 值 的 差异 
性 ， 对 于 数值 型 属性 ， 方 法 是 将 数据 按 升 序 排序 ， 然 后 从 小 到 大 依次 以 相 邻 数值 的 中 间 值 
作为 分 隔 ， 将 样本 分 为 两 组 ， 并 计算 所 得 组 中 样本 测试 输出 取 值 的 差异 性 。 

CART 算法 使 用 的 修剪 方式 是 预 修剪 和 后 修剪 相 结合 ， 而 C4.5 算法 使 用 后 修剪 方式 。 

3. 基于 规则 的 分 类 器 

基于 规则 的 分 类 器 是 一 种 通过 使 用 一 组 判断 规则 来 对 记录 进行 分 类 的 技术 。 模 型 的 规 
则 使 用 析 取 范式 R=(n vivV…v)， 其 中 ， 规 则 i 的 形式 为 1; :(Condition,) 人 > 儿 。 规 则 左 
边 称 为 规则 前 件 (rule antecedent)， 是 属性 测试 的 合 取 ; 规则 右边 称 为 规则 后 件 (rule 
consequent)， 包 含 预 测 类 别 y;。 

分 类 规则 的 质量 可 以 用 覆盖 率 (coverage) 和 准确 率 (accuracy) 来 度量 。 给 定数 据 集 D 和 
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— Ws 
分 类 规则 7 :4 >y， 规 则 的 覆盖 率 定义 为 D 中 触发 规则 r 的 记录 所 占 的 比例 ， 准 确 率 定义 
为 触发 + 的 记录 中 列 别 标签 等 于 y 的 记录 所 占 的 比例 。 

为 了 构建 基于 规则 的 分 类 器 ， 需 要 提取 一 组 规则 来 识别 数据 集 属性 和 类 别 标签 之 间 的 
关键 联系 。 提 取 分 类 规则 有 两 种 方法 : 第 一 种 是 直接 方法 ， 直 接 从 数据 中 提取 分 类 规则 ; 
第 二 种 是 间接 方法 ， 从 决策 树 等 其 他 模型 中 进行 提取 。 

规则 提取 的 直接 方法 可 以 采用 顺序 覆盖 (sequential covering) 算 法 。 算 法 的 伪 代 码 描述 
如 算法 2.2 所 示 ， 算 法 开始 时 规则 表 R 为 空 ， 函 数 Learn-One-Rule 提取 类 别 y 覆盖 当前 训 
练 记录 集 的 最 佳 规则 。 在 提取 规则 时 ， 类 别 y 的 所 有 训练 记录 都 视 为 正 例 ， 将 其 他 类 别 的 
训练 记录 都 视 为 反例 。 如 果 一 个 规则 覆盖 大 多 数 正 例 ， 没 有 或 仅 覆 盖 极 少数 反例 ， 那 么 该 
规则 可 取 。 一 旦 找到 这 样 的 规则 ， 就 删除 它 覆盖 的 训练 记录 ， 并 把 新 规则 追加 到 规则 表 R 
的 尾部 。 重 复 这 个 过 程 ， 直 到 满足 终止 条 件 。 然 后 ， 算 法 继续 产生 下 一 个 类 别 的 规则 。 

算法 2.2 顺序 覆盖 算法 

设 巨 为 训练 记录 ，A 是 属性 - 值 对 的 集合 

设 区 为 类 别 的 有 序 集合 fy,y,,…,y} 

设 尺 = 全 为 初始 规则 列表 

for 每 个 类 别 ye%-{y} do 

while 终止 条 件 不 满足 do 
r<¢-Leam-One-Rule(E,A,y) 
从 互 中 删除 工 窗 盖 的 训练 记录 
追加 工 到 规则 列表 尾部 : Rt- Rv 工 
end while 
end for 


把 默认 规则 全 一 插入 到 规则 列表 R 的 尾部 

规则 提取 的 间接 方法 主要 从 决策 树 中 提取 规则 。 过 程 是 ， 首 先 求 出 决策 树 ， 然 后 从 
每 一 个 叶 节 点 提取 出 来 一 个 规则 ， 再 通过 一 些 优 化 标准 将 可 以 合并 的 规则 进行 合并 。 

Weka 提供 多 种 基于 规则 的 分 类 器 。 其 中 ，JRip 分 类 器 实现 了 命题 规则 学 习 ， 重 复 增 
量 修剪 以 减少 产生 错误 (RIPPER)，RIPPER 是 由 William W. Cohen 提出 的 一 个 优化 版 本 的 
IREP。M5Rules 分 类 器 对 于 回归 问题 使 用 分 治 策略 生成 决策 表 。 在 每 一 次 迭代 中 ， 使 用 
M5 并 将 “最 好 ”叶子 构成 规则 ， 以 构建 模型 树 。PART 分 类 器 使 用 分 治 方法 产生 PART 
决策 表 的 类 ， 在 每 次 迭代 中 构建 局 部 C4.5 决策 树 ， 并 将 “最 好 ”叶子 构成 规则 。 此 外 ， 还 
有 ZeroR、OneR 以 及 DecisionTable 分 类 器 。 


4. 基于 实例 的 算法 


基于 决策 树 的 分 类 框架 包括 两 个 步骤 : 第 一 步 是 归纳 步 ， 由 训练 数据 构建 分 类 模型 ; 
第 二 步 是 演绎 步 ， 将 模型 应 用 于 测试 样本 。 前 文 所 述 的 决策 树 和 基于 规则 的 分 类 器 都 是 先 
对 训练 数据 进行 学 习 ， 得 到 分 类 模型 ， 然 后 对 未 知 数据 进行 分 类 ， 这 类 方法 通常 称 为 积极 
学 习 器 (eager leamer)。 与 之 相反 的 策略 是 推迟 对 训练 数据 的 建 模 ， 直 到 需要 对 未 知 样本 进 
行 分 类 时 才 进行 建 模 ， 采 用 这 种 策略 的 分 类 器 称 为 消极 学 习 器 (lazy leamer)。 消 极 学 习 器 的 
典型 代表 是 最 近邻 方法 ， 其 途径 是 找 出 与 测试 样本 相对 接近 的 所 有 训练 样本 ， 这 些 训练 样 
本 称 为 最 近邻 (Nearest Neighbor，NN)， 然 后 使 用 最 近邻 的 类 别 标签 来 确定 测试 样本 的 


类 别 。 
算法 2.3 是 大 最 近邻 分 类 算法 (简称 kNN) 的 伪 代 码 描述 。 对 每 一 个 测试 样本 
z=(x',y)， 计 算 该 样本 与 所 有 训练 样本 (x,y)eD 之 间 的 距离 d(x',x) ， 以 确定 其 最 近邻 
的 集合 D, c D 。 显 然 ， 如 果 训 练 样本 的 数目 很 大 ， 那 么 这 种 计算 的 开销 会 很 大 。 
算法 2.3 万 最 近邻 分 类 算法 
设 天 为 最 近邻 数目 ，D 为 训练 样本 的 集合 
for 每 个 测试 样本 2=(x',y) do 
计算 z 和 每 个 样本 (x,y) e DD 之 间 的 距离 q(x',x) 
选择 离 最 近 的 大 个 训练 样本 的 集合 PC D 
了 = argmaxZw wen 7 =J)  // 返回 D 样 本 中 多 数 类 别 的 类 别 标签 
end for 


一 旦 得 到 最 近邻 集合 ， 测 试 样本 就 可 以 按照 最 近邻 的 多 数 类 别 进行 分 类 ， 具 体 方法 是 
进行 多 数 表决 ， 多 数 表决 按 如 下 公式 计算 : 
y= argmax DG, wen, I(V =») 


其 中 ,vv 为 类 别 标签 的 所 有 可 能 取 值 ，y; 为 某 个 最 近邻 的 类 别 标签 ;了 为 指示 函数 ， 当 参数 
为 真 时 返回 1， 否 则 返回 0。 

以 上 的 多 数 表决 方法 使 用 每 个 近邻 对 类 别 的 影响 都 一 样 的 方式 ， 这 使 得 算法 对 的 取 
值 很 敏感 。 降 低 影响 的 一 种 方法 是 根据 每 个 最 近邻 距离 的 不 同 对 其 影响 加 权 ， 使 靠近 = 
的 训练 样本 对 分 类 的 影响 力 大 于 那些 远离 z 的 训练 样本 。 

Weka 提供 了 多 种 消极 学 习 器 。 其 中 ，IBk 分 类 器 是 一 种 大 最 近邻 分 类 器 。IBk 可 用 多 
种 不 同 的 搜索 算法 来 加 快 寻找 最 近邻 的 任务 ， 默 认 的 搜索 算法 是 线性 搜索 ， 但 也 可 以 使 用 
其 他 算法 ， 如 kD-trees、Ball Trees 以 及 称 为 Cover Trees( 覆 盖 树 ) 的 算法 。 搜 索 方法 使 用 距 
离 函 数 作为 参数 ， 默 认 是 欧 氏 距 离 ， 其 他 选项 还 有 切 比 雪夫 、 曼 哈 顿 和 闵可夫 斯 基 距 离 。 
最 近邻 数 ( 默 认 k = 1) 可 以 用 对 象 编辑 器 明确 指定 ， 或 者 使 用 留 一 法 交叉 验证 来 自动 确定 ， 
但 须 指定 值 的 上 限 。KStar 分 类 器 也 是 基于 实例 的 分 类 器 ， 其 测试 实例 类 以 类 似 于 它 的 训 
练 实例 类 为 基础 ， 有 一 些 类 似 的 功能 。 它 不 同 于 其 他 基于 实例 的 学 习 ， 因 为 它 使 用 基于 箭 
的 距离 函数 。LWL 分 类 器 使 用 局 部 加 权 学 习 ， 它 使 用 基于 实例 的 算法 分 配 实例 权重 ， 然 后 
使 用 加 权 实 例 构建 分 类 器 。 


5. 支持 向 量 机 


支持 向 量 机 (Support Vector Machine，SVMD) 分 类 器 是 一 种 有 监督 学 习 的 方法 ， 广 泛 地 
应 用 于 统计 分 类 以 及 回归 分 析 。SVM 的 特点 是 能 够 同时 最 小 化 经 验 误差 与 最 大 化 几何 边 
缘 。 因 此 ， 支 持 向 量 机 也 被 称 为 最 大 边缘 分 类 器 。 

支持 向 量 机 技术 具有 坚实 的 统计 学 理论 基础 ， 并 在 实践 上 有 诸多 成 功 示 例 。SVM 可 以 
很 好 地 用 于 高 维 数据 ， 避 免 维 数 灾难 。 它 有 一 个 独特 的 特点 ， 就 是 使 用 训练 实例 的 一 个 子 
集 来 表示 决策 边界 ， 该 子 集 称 为 支持 向 量 ， 这 就 是 其 名 称 的 来 历 。 

数据 分 类 是 机 器 学 习 的 一 种 常见 任务 。 假 定 有 一 些 给 定 的 数据 点 ， 每 个 数据 点 属于 两 个 
类 别 之 一 ， 即 二 元 分 类 ， 其 分 类 目标 是 ， 确 定 一 个 新 的 数据 点 属于 哪个 类 别 。 用 支持 向 量 
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机 的 观点 ， 可 以 将 一 个 数据 点 视 为 一 个 p 维 向 量 ， 问 题 就 转换 为 是 否 可 以 使 用 一 个 (p-1) 维 
超 平面 将 这 些 点 按 类 别 进行 分 割 ， 这 就 是 所 谓 的 线性 分 类 器 。 有 许多 可 能 对 数据 进行 分 类 

的 超 平面 ， 最 佳 的 超 平面 应 该 是 能 够 将 两 个 类 别 最 大 限度 地 分 离开 来 的 超 平面 。 所 以 选择 

光 超 平面 应 该 能 够 将 与 两 侧 最 接近 的 数据 点 的 距离 最 大 化 。 如 果 存 在 这 样 一 个 超 平面 ， 可 

称 之 为 最 大 边缘 超 平面 ， 所 定义 的 线性 分 类 器 称 为 最 大 边缘 分 类 器 。 如 图 2.45 所 示 ， 超 平 

卫 不 能 分 割 两 个 类 别 ， 超 平面 瑟 能 够 分 割 ， 但 边缘 很 小 ; 超 平面 万 能 以 最 大 边缘 分 割 

两 个 类 别 。 


2.45” 超 平面 示意 图 ?” 


支持 向 量 机 原先 是 为 二 元 分 类 问题 设计 的 ， 但 它 也 可 以 扩展 至 能 够 处 理 多 元 分 类 问 
题 。 支 持 向 量 机 分 为 线性 支持 向 量 机 和 非 线性 支持 向 量 机 ， 限 于 篇 幅 ， 本 书 只 介绍 线性 支 
持 向 量 机 。 

考虑 一 个 包含 NN 个 训练 样本 的 二 元 分 类 问题 。 设 数据 集 为 D， 则 

D={(%,9)| x eR ,yy eb} i=12,N 

其 中 ，y; 的 值 为 1 或 -1， 表 示 点 x, 所属 的 类 别 ，x, 是 p 维 的 实数 向 量 。 目 标 是 寻找 一 个 
能 将 y=1 和 yy =-1 的 数据 点 进行 分 割 的 最 大 边缘 超 平面 。 任 意 超 平面 都 可 写 为 满足 下 式 
的 点 集 : 


wx—b=0 


其 中 ，“。” 代表 点 积 ，w 代表 超 平面 的 法 向 量 :参数 也 -决定 超 平面 从 原点 沿 法 向 量 w 


加 
的 位 移 。 
如 果 训 练 数据 线性 可 分 ， 可 以 选择 两 个 超 平面 ， 使 得 它们 能 分 割 数据 ， 且 没有 点 落 在 两 
个 超 平面 之 间 ， 然 后 尽量 让 两 个 超 平面 的 距离 最 大 化 。 这 些 超 平面 方程 可 以 由 下 式 描述 : 


wx—b=1 


wx—b=—l 


运用 几何 原理 ， 可 知 两 个 超 平面 之 间 的 距离 为 ， 因此 最 大 化 距离 就 是 最 小 化 


O 来 源 : http://en.wikipedia.org/wiki/File:Svm separating hyperplanes (SVG).svg。 作 者 : ZackWeinberg。 


| ， 如 图 2.46 所 示 。 


2.46 ”最 大 边缘 超 平面 ” 


因为 要 阻止 数据 点 落 入 边缘 内 ， 所 以 添加 如 下 约束 。 
(1) 对 于 属于 第 一 个 类 别 的 x ， 有 wex, -5 之 1。 
(2) 对 于 属于 第 二 个 类 别 的 x ， 有 wex, -0 过 -1。 
上 述 两 个 公式 可 以 合 写 为 更 紧凑 的 形式 ， 对 于 全 部 的 1<i< N， 有 (wsx -之 1。 
因此 ， 线 性 支持 向 量 机 的 最 大 化 边缘 等 价 于 最 小 化 如 下 的 目标 函数 ， 


bE 
/w= 时 


Weka 提供 多 个 支持 向 量 机 分 类 器 算法 。SMO 分 类 器 实现 训练 支持 向 量 分 类 器 的 序列 
最 小 优化 (Sequential Minimal Optimization，SMO) 算 法 ， 使 用 诸如 多 项 式 或 高 斯 核 的 核 函 
数 。Weka SMO 分 类 器 全 局 蔡 换 缺失 值 ， 将 标 称 型 属性 转换 为 二 元 属性 ， 默 认 情 况 下 对 属 
性 进行 规范 化 (输入 标准 化 为 零 均值 和 单位 方差 )， 可 关闭 规范 化 选项 。SMOreg 分 类 器 实现 
序列 最 小 优化 算法 的 学 习 支 持 向 量 回 归 模 型 。 

6. 集成 学 习 

集成 学 习 (ensemble leaming) 就 是 通过 聚集 多 个 分 类 器 的 预测 结果 来 提高 分 类 准确 率 。 
集成 方法 由 训练 数据 构建 一 组 基 分 类 器 (base classifier)， 然 后 通过 每 个 基 分 类 器 的 预测 的 投 
票 来 进行 分 类 。 一 般 来 说 ， 集 成 分 类 器 的 性 能 要 好 于 任意 的 单个 分 类 器 ， 因 为 集体 决策 在 
全 面 可 靠 性 和 准确 度 上 优 于 个 体 决 策 。 

集成 学 习 的 逻辑 视图 如 图 2.47 所 示 。 其 基本 思想 是 ， 在 原始 数据 上 构建 多 个 分 类 器 ， 
然后 分 别 预测 未 知 样本 的 类 别 ， 最 后 聚集 预测 结果 。 

构建 集成 分 类 器 的 方法 有 多 种 。 使 用 最 多 的 有 如 下 两 种 。 第 一 种 处 理 训练 数据 集 ， 根 
据 某 种 决定 某 个 样本 抽取 到 的 可 能 性 大 小 的 抽样 分 布 ， 对 原始 数据 进行 二 次 抽样 以 得 到 多 
个 训练 集 。 然 后 ， 使 用 特定 学 习 算 法 为 每 个 训练 集 构建 一 个 分 类 器 。 装 袋 (bagging) 和 提升 


@ 来 源 : http://en.wikipedia.org/wiki/File:Svm_max sep_hyperplane_with margin.png。 作 者 : Peter Buch。 
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(boosting) 采 用 这 种 方法 。 第 二 种 处 理 输入 特征 ， 通 过 选择 输入 特征 的 子 集 来 得 到 多 个 训练 
集 。 这 种 方法 特别 适用 于 那些 含有 大 量 元 余 特 征 的 数据 集 。 随 机 森林 (random foresb 采 用 这 


种 方法 。 
中 原始 训练 数据 


步骤 1: 创建 多 
个 数据 集 


步骤 2: 构建 多 
个 分 类 器 


步骤 3: 聚集 分 
类 器 


图 2.47 集成 学 习 逻 辑 视图 


集成 学 习 的 一 般 过 程 如 算法 2.4 所 示 。 集 成 学 习 对 不 稳定 的 分 类 器 效果 较 好 ， 不 稳定 
的 分 类 器 对 微小 变化 都 很 敏感 ， 包 括 决 策 树 、 基 于 规则 的 分 类 器 和 人 工 神 经 网 络 。 由 于 训 
练 样本 的 可 变性 是 分 类 器 误差 的 主要 来 源 之 一 ， 聚 集 在 不 同 训练 集 上 构建 的 基 分 类 器 ， 有 
助 于 减少 这 类 误差 。 聚 集 方法 一 般 是 对 单个 预测 值 进行 多 数 表 决 ， 也 可 以 用 基 分 类 器 的 准 
确 率 对 预测 值 进 行 加 权 ， 得 到 聚集 后 的 预测 结果 。 

算法 2.4 集成 学 习 的 一 般 过 程 


设 DD 表示 原始 训练 数据 集 ，k 表示 基 分 类 器 的 个 数 ，T 表 示 测 试 数据 集 
fori=1tokdo 


由 DD 创建 训练 集 D; 
由 Di 构建 基 分 类 器 C; 
end for 
for 每 一 个 测试 样本 xEe 7 do 
C (x) = Vote (Ci (Xx), C(x),**, Cx(x)) 
end for 
1) 装 袋 


装 袋 又 称 为 自助 聚集 (boot strap aggregation)， 是 一 种 根据 均匀 概率 分 布 从 数据 集中 有 
放 回 重复 抽样 的 技术 。 每 个 自助 样本 集 都 和 原 数据 集 一 样 大 。 由 于 抽样 过 程 是 有 放 回 的 ， 
在 同一 个 训练 样本 中 可 能 会 多 次 出 现 同一 些 样本 ， 也 可 能 有 的 不 会 出 现 。 一 般 来 说 ， 
自助 样本 D; 大 约 包含 原 训练 数据 的 63%， 因 为 Di 抽 到 一 个 样本 的 概率 为 1-(1-1/N)”， 


如 果 六 足够 大 ， 这 个 概率 收敛 于 1-L/e s 0.632 。 装 袋 的 过 程 如 算法 2.5 所 示 ， 训 练 磊 个 分 
类 器 后 ， 分 类 器 对 单个 预测 值 进行 多 数 表决 ， 将 得 票 最 高 的 类 别 指派 给 测试 样本 。 


算法 2.5 装 袋 算法 


设 妇 为 原始 数据 集 的 实例 数目 ， 为 自助 样本 集 的 数目 
for i=1tokdo 
生成 一 个 大 小 为 Ny 的 自助 样本 集 D; 
在 自助 样本 集 D; 上 训练 一 个 基 分 类 器 C; 
end for 
C CD =argmax ,1(C,(x)=») 


在 算法 中 ， 指 示 函 数 4) 定 义 为 ， 如 果 参 数 4 为 真 ， 则 K4) 为 1， 否则 为 0。 

装 袋 通过 降低 基 分 类 器 方差 改善 了 泛 化 误差 。 装 袋 的 性 能 依赖 于 基 分 类 器 的 稳定 性 ， 
装 袋 应 该 选择 不 稳定 的 基 分 类 器 ， 这 样 有 助 于 降低 因 训练 数据 的 随机 波动 导致 的 误差 。 由 
于 选中 每 个 样本 的 概率 都 相同 ， 因 此 装 袋 并 不 偏重 于 原 训练 数据 集中 的 任何 样本 ， 不 太 受 
过 拟 合 的 影响 。 

2) 提升 

提升 是 一 个 自 适 应 改变 训练 样本 分 布 的 迭代 过 程 ， 使 基 分 类 器 重点 关注 那些 难以 分 类 
的 样本 。 不 像 装 袋 ， 提 升 为 每 一 个 训练 样本 赋 一 个 权重 ， 在 每 一 轮 提升 过 程 结 束 时 可 以 自 
动 调整 权重 。 赋 值 给 训练 样本 的 权重 可 用 于 以 下 两 个 方面 。 

第 一 ， 用 作 抽 样 分 布 ， 从 原始 数据 集中 抽取 自助 样本 集合 。 

第 二 ， 可 以 为 基 分 类 器 所 用 ， 学 习 偏 向 于 高 权重 样本 的 模型 。 
因此 ， 提 升 算法 就 是 利用 样本 的 权重 来 确定 训练 集 的 抽样 分 布 。 开 始 时 所 有 样本 的 权 
重 都 等 于 IN， 抽 样 到 的 概率 都 一 样 ， 抽 样 得 到 新 样本 集 后 经 过 训练 得 到 一 个 分 类 器 ， 并 
用 它 来 对 原始 数据 集中 的 所 有 样本 进行 分 类 。 每 一 轮 提升 都 增加 错误 分 类 样本 的 权重 ， 减 
小 正确 分 类 样本 的 权重 ， 这 使 得 分 类 器 在 后 续 欠 代 中 关注 那些 难以 分 类 的 样本 。 

已 经 有 多 种 提升 算法 的 实现 ， 其 主要 差别 是 : 第 一 ， 每 轮 提升 后 更 新 样本 权重 的 算法 
不 同 ， 第 二 ， 汇 集 各 个 分 类 器 的 预测 结果 的 方法 不 同 。 其 中 ，AdaBoost 算法 使 用 广泛 ， 因 
此 本 书 介绍 AdaBoost 算法 ， 其 基 分 类 器 的 重要 性 依赖 于 它 的 分 类 错误 率 。 错 误 率 定义 为 


4 = 二 [ZICGo)zo 


其 中 ， 忆 为 第 j 个 样本 ;， Ci) 为 第 i 个 分 类 器 对 样本 芒 的 分 类 结果 ; 7 为 指示 函数 (如 果 参 
数 4 为 tme， 则 ZX4)=1， 否 则 为 0); 为 权重 。 
基 分 类 器 Ci 的 重要 性 按 下 式 计算 : 
yd 
2i = 二 一 一 
汪 本 


i 


如 果 错 误 率 接近 0， 则 为 正 无 穷 : 如 果 错 误 率 接近 1， 则 为 负 无 穷 。 

参数 必用 于 更 新 训练 样本 权重 ，AdaBoost 权重 更 新 机 制 由 下 式 决定 : 
i 中、 如 果 CGo)= 轧 

Z， |e， 如 果 C(co) 关 芒 
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其 中 ， 忆 为 规范 化 因子 ， 用 于 确保 了 w=1。 


AdaBoost 算法 不 使 用 多 数 表决 的 方案 ， 而 是 对 分 类 器 Ci 的 预测 值 根 据 os 加 权 。 这 
样 ， 有 助 于 惩罚 那些 准确 率 很 低 的 模型 。 另 外 ， 如 果 某 一 轮 产生 大 于 50% 的 误差 ， 则 将 权 
重重 新 恢复 为 初始 值 ， 重 新 抽样 ， 重 做 该 轮 的 提升 。AdaBoost 算法 伪 代 码 如 算法 2.6 所 示 。 


算法 2.6 AdaBoost 算法 
mp={fw =1/N|j=1,2,.…,N} // 初始 化 个 样本 的 权 值 
设 天 表示 提升 的 轮 数 
fori=1tokdo 
根据 w， 通 过 对 D 进 行 有 放 回 的 抽样 ， 产 生 训 练 集 D; 


由 


在 D; 上 训练 基 分 类 器 C; 
用 Cc; 对 原 训练 集 D 中 的 所 有 样本 分 类 
a, -Zr ,C(x,) #»)] // 计算 加 权 误差 
if s >0.5 then // 误差 太 大 ， 重 试 
w={w, =L/N|j=1,2,.…,N} // 重新 设置 W 个 样本 的 权 值 
i= i-l // 恢复 迭代 轮 次 
break 
end if 
= 了 向 1 
a 6 


wn? [e“， 如 果 C(x)=y 
es el di 伴 本 的 
根据 公式 w 过 汉 如 果 Cx) 更 新 每 个 样本 的 权 值 


end for 
C' CO = argmax Dal(C (x)=») // z 是 实际 的 迭代 次 数 


Weka 的 实现 算法 为 AdaBoostM1， 它 使 用 AdaBoost 算法 的 M1 方法 ， 提 升 标 称 型 
类 别 的 分 类 器 类 。MI1 方法 只 能 处 理 标 称 型 分 类 的 问题 ， 通 常会 显著 提高 性 能 ， 但 有 时 
会 过 拟 合 。Weka AdaBoostMI 的 实现 代码 与 上 面 的 算法 稍 有 不 同 ， 如 果 第 i 轮 中 的 错误 率 
所 >0.5 或 者 a=0， 就 设置 + 为 1( 只 使 用 一 个 基 分 类 器 ， 不 启用 集成 学 习 ) 并 退出 。 另 外 ， 
Weka 还 提供 LogitBoost， 它 使 用 以 回归 方法 为 基础 的 学 习 ， 能 处 理 多 元 分 类 问题 。 

3) 随机 森林 

随机 森林 是 一 类 专门 为 决策 树 分 类 器 设计 的 集成 学 习 方 法 。 它 集成 多 棵 决策 树 的 预 
测 ， 其 中 每 棵 树 都 是 基于 随机 向 量 的 一 个 独立 集合 的 值 产生 的 。 

通过 随机 森林 得 到 基 分 类 器 Ci 的 算法 主要 分 为 如 下 两 步 。 

第 一 步 ， 对 给 定 原始 训练 集 采 用 有 放 回 的 自助 取样 ， 得 到 和 原始 训练 集 大 小 一 致 的 训 
练 集 ， 与 装 袋 方法 一 致 。 

第 二 步 ， 随 机 选取 分 裂 属 性 集 。 假 设 共 有 M 个 属性 ， 指 定 一 个 小 于 M 的 属性 数 形 ， 
在 整个 森林 的 生长 过 程 中 ，F 的 值 一 般 维持 不 变 。 每 棵 树 任 其 生长 ， 即 充分 生长 ， 不 进行 
修剪 。 在 每 个 内 部 节点 ， 从 M 个 属性 中 随机 抽取 到 个 属性 作为 分 裂 属 性 集 ， 以 最 好 的 分 
裂 方式 对 节点 进行 分 裂 。 

随机 森林 的 组 合 输出 采用 简单 多 数 投票 法 (针对 分 类 ) 得 到 ， 或 者 采用 多 棵 决策 树 输出 
结果 的 简单 平均 值 (针对 回归 ) 得 到 。 


Weka 提供 实现 随机 森林 的 RandomForest 算法 。 


2.3.5 “分 类 模型 评估 

1. 定性 评估 标准 

一 般 来 说 ， 分 类 模型 有 如 下 评估 标准 。 

(1) 预测 的 准确 率 : 模型 正确 地 预测 新 的 或 先前 没 见 过 的 样本 的 类 别 标签 能 力 。 

(2) 速度 : 产生 和 使 用 模型 的 计算 开销 。 

(3) 强壮 性 : 对 于 有 噪声 或 具有 人 缺失 值 的 样本 ， 模 型 能 正确 预测 的 能 力 。 

(4) 可 伸缩 性 : 给 定 很 大 的 数据 集 ， 能 有 效 地 构造 模型 的 能 

(5) 可 解释 性 : 学 习 模 型 提供 的 理解 和 解释 的 层次 。 

预测 的 准确 率 常 用 于 比较 和 评估 分 类 器 的 性 能 ， 它 将 每 个 类 别 看 成 同等 重要 ， 因 此 可 
能 不 适合 用 来 分 析 不 平衡 数据 集 。 在 不 平衡 数据 集中 ， 稀 有 类 别 比 多 数 类 别 更 有 意义 。 也 
就 是 说 ， 需 要 考虑 错误 决策 、 错 误 分 类 的 代价 问题 。 例 如 ， 在 银行 贷款 决策 中 ， 贷 款 给 违 
规 者 的 代价 远 远 比 由 于 拒绝 贷款 给 不 违规 者 而 造成 生意 损失 的 代价 大 得 多 ; 在 诊断 问题 
中 ， 将 实际 没有 问题 的 机 器 误诊 为 有 问题 而 产生 的 代价 比 因 没有 诊断 出 问题 而 导致 机 器 损 
坏 而 产生 的 代价 小 得 多 。 

对 于 一 个 二 元 分 类 问题 ， 预 测 可 能 产生 四 种 不 同 的 结果 ， 如 表 2.1 所 示 。 真 阳性 (True 
Positive，TP) 和 真 阴 性 (True Negative，TN) 都 是 正确 分 类 结果 ， 即 预测 类 别 和 真实 类 别 相 
符 。 假 阳性 (False Positive，FP) 发 生 在 当 预 测 类 别 为 yes 而 真实 类 别 为 no 时 ， 假 阴性 (False 
Negative，FN) 发 生 在 当 预 测 类 别 为 no 而 真实 类 别 为 yes 时 。 


表 2.1 二 元 预测 的 不 同 结果 


预测 类 别 


| ys | 
| yes | wm | 
| mo | HBmtt 


通常 可 以 将 表 2.1 推广 至 多 元 分 类 的 问题 ， 只 不 过 增加 一 些 行 和 列 ， 称 为 二 维 混淆 和 矩 
阵 ， 常 用 来 展示 对 测试 集 的 预测 结果 。 真 实 类 别 对 应 矩阵 行 ， 预 测 类 别 对 应 矩阵 列 ， 和 矩阵 
单元 则 显示 对 应 的 测试 样本 数目 。 也 有 文献 将 真实 类 别 对 应 矩阵 列 ， 预 测 类 别 对 应 矩阵 
行 ， 只 是 将 行列 对 调 ， 并 没有 实质 的 区 别 。 好 的 测试 结果 应 该 是 主 对 角 线 上 的 数值 要 大 ， 
而 其 他 非 主 对 角 线 上 单元 的 数值 要 小 。 

2. 常用 度量 

对 于 二 元 分 类 问题 ， 有 如 下 的 简单 度量 标准 。 

真 阳 性 率 (True Positive Rate，TPR) 等 于 TP 除 以 真实 类 别 为 yes 的 总 数 (TP+FN)， 即 

IP 
TP+FN 
真 阴 性 率 (True Negative Rate，TNR) 等 于 TN 除 以 真实 类 别 为 no 的 总 数 (FP+TN)， 即 


真实 类 别 
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数据 挖 所 与 机 器 学 习 
- -TN 
FP+TIN 
假 阳 性 率 (False Positive Rate，FPR) 等 于 FP 除 以 真实 类 别 为 no 的 总 数 (FP+TN)， 即 
FP 
FPR= 
FP+IN 
假 了 明 性 率 (False Negative Rate，FNR) 等 于 FN 除 以 真实 类 别 为 yes 的 总 数 (TP+FN)， 即 
-EN 
TP+FN 


综合 准确 率 等 于 正确 分 类 总 数 除 以 全 体 分 类 首 数 | 准确 率 ~ 


些 “ 率 ”之 后 ， 对 应 的 错误 率 则 是 1 减 去 这 些 率 。 
另外 ， 查 全 率 (Recall) 和 查 准 率 (Precision) 是 两 个 使 用 广泛 的 度量 ， 其 定义 为 


we Tb 
查 准 率 p = 于 FP 


查 全 率 r= 一 _ 
TP+FN 
查 准 率 确定 分 类 器 断定 为 正 例 的 那 部 分 记录 中 实际 为 正 例 的 记录 所 占 的 比例 。 查 准 率 
越 高 ， 分 类 器 的 假 阳 性 率 就 越 低 。 查 全 率 度量 分 类 器 正确 预测 的 正 例 的 比例 ， 如 果 分 类 器 
的 查 全 率 高 ， 则 很 少将 正 例 误 分 为 负 例 。 实 际 上 ， 查 全 率 的 值 等 于 真 阳性 率 。 
分 类 算法 的 主要 任务 之 一 就 是 构建 一 个 最 大 化 查 全 率 和 查 准 率 的 模型 。 可 以 将 查 全 率 
和 查 准 率 合并 成 一 个 称 为 Fi 的 度量 ，Weka 称 Fi 为 F-Measure。 
2p 2xTIP 
: rip 2xTP+FP+EN 


厂 表示 查 全 率 和 查 准 率 的 调和 均值 。 可 以 把 上 式 改写 为 


TP+TIN 
TP+TN+FP+FN 


|. 知道 这 


由 于 两 个 数 的 调和 均值 趋向 于 接近 较 小 的 值 ， 因 此 五 度量 值 高 可 以 确保 查 全 率 和 查 准 
率 都 比较 高 。 


3. 接受 者 操作 特征 曲线 


接受 者 操作 特征 (Receiver Operating Characteristic，ROC) 曲 线 是 显示 分 类 器 真 阳性 率 和 
假 阳 性 率 之 间 折 中 的 一 种 图 形 化 方法 。 在 ROC 曲线 中 ，x 轴 为 假 阳 性 率 ，y 轴 为 真 阳 性 
率 ， 曲 线 的 每 个 点 对 应 某 个 分 类 器 归纳 的 模型 ， 如 图 2.48 所 示 。 

ROC 曲线 有 几 个 关键 点 ， 公 认 的 解释 如 下 。 

e (FPR=0, TPR=0): 把 每 个 实例 都 预测 为 负 例 的 模型 。 

e (FPR=1, TPR=1): 把 每 个 实例 都 预测 为 正 例 的 模型 。 

e。 (FPR=0, TPR=1): 理想 模型 。 

好 的 分 类 模型 应 该 尽 可 能 靠近 ROC 图 的 左上 角 ， 随 机 猜测 的 模型 应 位 于 连接 点 
(FPR=0, TPR=0) 和 点 (FPR=1, TPR=1) 的 主 对 角 线 上 。 

ROC 曲线 下 面积 (Area Under the Curve， AUC) 提 供 了 另 一 种 评估 模型 的 平均 性 能 的 方 


法 。 如 果 模 型 是 完美 的 ， 则 它 的 ROC 曲线 下 面积 等 于 1; 如 果 模 型 是 随机 猜测 的 ， 则 它 的 
ROC 曲线 下 面积 等 于 0.5; 如 果 一 个 模型 比 另 一 个 模型 好 ， 则 它 的 ROC 曲线 下 面积 较 大 。 
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图 2.48 ”ROC 曲线 


2.3.6 ”手把手 教 你 用 
1. 使 用 C4.5 分 类 器 


本 例 使 用 C4.5 分 类 器 对 天 气 数据 集 进行 分 类 。 

首先 加 载 天 气 数据 集 ， 操 作 步 又 为 :启动 探索 者 界面 ， 在 Preprocess 标签 页 中 单 击 
Open file 按钮 ， 选 择 并 打开 data 目录 中 的 weather.nominal.arff 文件 ， 然后， 切换 到 
Classify 标签 页 。 

从 前 面 的 学 习 中 可 以 知道 ， 构 建 决策 树 的 C4.5 算法 在 Weka 中 是 作为 一 个 分 类 器 来 实 
现 的 ， 名 称 为 418。 单 击 Classify 标签 页 上 部 的 Choose 按钮 ， 打 开 分 类 器 分 层 列表 。 单 击 
trees 条 目 以 展开 其 子 条 目 ， 然 后 单 击 J48 条 目 选择 该 分 类 器 。 与 过 滤器 一 样 ， 分 类 器 也 按 
层次 进行 组 织 ，J48 的 全 名 为 weka.classifiers.trees.J48。 

在 Choose 按钮 旁边 的 文本 框 内 ， 可 以 看 到 当前 分 类 器 及 选项 : J48 -C 0.25 -M 2。 这 
是 此 分 类 器 默认 的 参数 设置 ， 对 于 J48 分 类 器 ， 一 般 不 用 更 改 这 些 参数 就 可 以 获得 良好 
的 性 能 。 

为 了 便于 说 明 ， 下 面 使 用 训练 数据 进行 性 能 评估 。 使 用 训练 数据 进行 评估 并 不 是 一 个 
好 方法 ， 因 为 它 会 导致 盲目 乐观 的 性 能 估计 。 如 同期 末 试 题 就 从 平时 测验 中 抽取 一 样 ， 绝 
大 部 分 学 生 都 能 考 得 很 好 ， 但 这 并 不 意味 着 他 们 都 掌握 了 课程 知识 。 在 Classify 标签 页 的 
Test options( 测 试 选项 ) 选 项 组 中 ， 选 中 Use training set( 使 用 训练 集 ) 单 选 按钮 ， 以 确定 测试 
策略 。 做 好 上 述 准备 之 后 ， 可 以 单 击 Start( 开 始 ) 按 钮 ， 启 动 分 类 器 的 构建 和 评估 ， 使 用 当 
前 选择 的 学 习 算法 J48， 通 过 训练 集 构建 J48 分 类 器 模型 。 然 后 ， 使 用 构建 的 模型 对 训练 
数据 的 所 有 实例 进行 分 类 以 评估 性 能 ， 并 输出 性 能 统计 信息 ， 如 图 2.49 所 示 。 

训练 和 测试 结果 会 以 文本 方式 显示 在 探索 者 界面 右 侧 的 Classifier Output( 分 类 器 输出 ) 
区 域 中 。 读 者 可 拖 动 右边 的 滚动 条 以 检查 这 些 文字 信息 。 首 先 看 决策 树 的 描述 部 分 ， 其 信 
息 重 新 摘录 如 图 2.50 所 示 。 
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2.49 选择 测试 选项 


图 2.50 中 的 文字 表示 构建 的 J48 修剪 (pruned) 决 策 树 ， 包 括 决策 节点 、 分 支 和 叶 节 
点 。 决 策 节 点 用 一 个 测试 表示 ， 分 支 用 “|” 加 上 缩 进 表 示 ， 叶 节点 后 面 有 一 个 括号 ， 括 号 
内 的 数字 代表 到 达 该 叶 节 点 的 实例 数量 。 当 然 ， 采 用 文字 对 模型 进行 表述 十 分 笨拙 且 难 以 
理解 ， 因 此 Weka 也 能 生成 等 效 的 图 形 表 示 。 

按照 上 述 方法 ， 如 果 更 改 数据 集 或 调整 选项 ， 每 次 单 击 Start 按钮 ， 都 会 构建 和 评估 一 
个 新 的 分 类 器 模型 ， 在 图 2.49 所 示 窗 口 左下 角 的 Result list( 结 果 列 表 ) 区 域 中 就 会 相应 添加 
一 个 新 条 目 。 

可 以 按照 如 下 方法 得 到 图 形 化 表示 的 决策 树 。 右 击 刚刚 被 添加 到 结果 列表 中 的 
trees.J48 条 目 ， 并 在 弹出 的 快捷 菜单 中 选择 Visualize tree( 可 视 化 树 ) 菜 单项 ， 会 弹出 如 
2.51 所 示 的 决策 树 视图 窗口 。 该 决策 树 视图 可 以 自动 缩放 和 平移 ， 可 以 通过 选择 右 击 空 
白 处 而 弹出 的 快捷 菜单 中 的 Auto Scale 菜单 项 实现 视图 的 自动 缩放 ， 可 以 通过 按 下 鼠标 左 
键 并 拖 动 鼠标 实现 视图 平移 。 


48 pruned rree 
ourlook = sunny 
1 hunidity = high: ao (3.0) 
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ouslook = rainy 
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2.50 ”决策 树 的 文字 描述 2.51 构建 的 决策 树 


可 见 ， 图 2.51 与 图 2.50 表示 的 信息 是 一 致 的 。 其 中 ， 叶 节点 中 用 括号 括 起 的 数字 表 
示 到 达 该 节点 的 实例 数量 。 另 外 ， 图 2.50 中 的 文字 描述 还 包含 两 条 额外 信息 : Number of 
Leaves( 叶 子 数量 ) 表 示 叶 节点 的 数量 ，Size of the tree( 树 大 小 ) 表 示 树 中 全 部 节点 的 数量 。 
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现在 来 看 看 分 类 器 输出 的 其 余 信息 。 输 出 中 接 下 来 的 两 个 部 分 给 出 了 基于 选 定 的 测试 
选项 得 到 的 分 类 模型 的 质量 报告 。 第 一 部 分 是 一 段 文字 描述 : 


Correctly Classified Instances 14 100% 


这 段 文 字 描 述 了 正确 分 类 的 测试 实例 有 多 少 条 ， 占 多 大 比例 。 它 表示 使 用 数据 测试 模 
型 的 准确 性 。 本 例 中 ， 准 确 性 高 达 100%， 表 示 完 全 正确 。 不 用 惊奇 ， 这 是 使 用 训练 集 进 
行 测试 时 经 常 发 生 的 事 。 

分 类 器 输出 的 最 后 一 项 是 一 个 如 下 所 示 的 混淆 矩阵 : 

一 =- Confusion Matrix 一 一 

a b <-- classified as 

9 0 1a= yes 

0 5 |1b=no 

和 矩阵 中 的 每 一 个 元 素 都 是 实例 的 计数 值 。 行 表示 真实 类 别 ， 列 表示 预测 类 别 。 可 以 看 
到 ， 全 部 9 个 真实 类 别 为 yes 的 实例 都 已 预测 为 yes， 全 部 5 个 真实 类 别 为 no 的 实例 都 
已 预测 为 no。 只 有 主 对 角 线 上 的 数值 很 大 ， 而 非 主 对 角 线 上 的 数值 都 为 0， 表 明 预 测 完全 
正确 。 

以 上 是 使 用 训练 集 作为 测试 策略 得 到 的 训练 结果 ， 当 然 ， 还 可 以 选择 使 用 其 他 的 测试 
策略 。 单 击 Start 按钮 启动 所 选 学 习 算法 的 运行 ， 使 用 Preprocess 标签 页 中 加 载 的 数据 集 和 
所 选择 的 测试 策略 。 例 如 ， 如 果 使 用 十 折 交 叉 验 证 ， 需 要 运行 十 次 学 习 算 法 ， 以 构建 和 评 
估 十 个 分 类 器 。 要 注意 的 是 ， 打 印 到 分 类 器 输出 区 域 的 分 类 器 模型 是 由 完整 的 训练 集 构建 
的 ， 这 是 最 后 一 次 运行 学 习 算法 得 到 的 结果 。 

现在 加 载 iris 数据 集 ， 还 是 使 用 J48 分 类 器 进行 学 习 。 首 先 选择 使 用 Use training set 
测试 选项 ， 然 后 选择 使 用 Cross-validation 十 折 测 试 选项 ， 分 别 训练 并 评估 J48 分 类 器 ， 运 
行 结果 如 表 2.2 所 示 。 


表 2.2 ”两 种 测试 选项 的 运行 结果 


正确 分 类 的 测试 实例 | 正确 分 类 比例 
使 用 训练 集 


g 7 
Cross-validation(10 folds, 交叉 验证 (十 折 ) 144 


从 表 2.2 中 的 数据 可 以 看 到 ， 使 用 训练 集 的 正确 分 类 所 占 的 比例 较 高 ， 达 到 98%。 但 


由 于 是 直接 将 训练 集 用 于 测试 ， 因 此 结论 并 不 可 靠 。 相 反 ， 十 折 交 叉 验 证 将 数据 集 分 为 十 
等 份 ， 将 其 中 的 一 份 用 于 测试 ， 另 外 九 份 用 于 训练 ， 如 此 依次 进行 十 次 训练 和 评估 ， 显 然 
得 到 的 结论 要 可 靠 一 些 。 

最 后 ， 检 查 一 下 分 类 器 错误 的 可 视 化 表示 。 右 击 结果 列表 中 的 trees.J48 条 目 ， 从 弹出 的 
快捷 菜单 中 选择 Visualize classifier errors( 可 视 化 分 类 器 错误 ) 菜 单项 ， 会 弹出 一 个 散 点 图 窗 
， 正 确 分 类 的 实例 标记 为 小 又 号 ， 不 正确 分 类 的 实例 标记 为 小 空心 方块 ， 如 图 2.52 所 示 。 

2.52 中 ， 横 坐标 表示 真实 类 别 ， 纵 坐标 表示 预测 类 别 。 注 意 ， 不 要 为 表面 现象 迷 
惑 ， 一 个 小 又 号 并 不 一 定 只 代表 一 个 实例 ， 一 个 小 空心 方块 有 时 也 并 不 仅仅 代表 一 个 错 分 
的 实例 。 如 果 想 看 到 底 有 几 个 错 分 实例 ， 可 以 拉动 Jitter 滑 块 ， 此 时 会 错开 一 些 相互 到 加 
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的 实例 ， 便 于 看 清楚 到 底 有 多 少 个 错 分 的 实例 。 另 一 种 办 法 是 单 击 小 空心 方块 ， 此 时 会 弹 


出 如 图 2.53 所 示 的 实例 信息 ， 显 示 每 个 实例 的 各 属性 值 以 及 预测 类 别 和 真实 类 别 。 


图 2.52 可视化 分 类 器 错误 散 点 图 图 2.53 实例 信息 


2. 使 用 分 类 器 预测 未 知 数据 


还 是 使 用 J48 分 类 器 对 天 气 数据 集 进行 训练 ， 得 到 如 图 2.51 所 示 的 决策 树 。 
现在 构建 一 个 测试 数据 集 ， 用 任意 的 文本 编辑 器 ， 编 辑 如 下 内 容 : 


@relation weather.symbolic 


@attribute outlook {sunny, overcast, rainy} 
@attribute temperature {hot, mild, cool} 
@attribute humidity {high, normal} 
@attribute windy {TRUE, FALSE} 

Q@attribute play {yes, no} 


@data 
rainy, cool, high, FALSE, yes 


将 测试 数据 集 保存 为 weather.nominal.test.arff 文件 。 


然后 ， 在 Classify 标签 页 的 Test options 选项 组 中 ， 选 择 Supplied test set 作为 测试 策 
略 ， 单 击 后 面 的 Set 按钮 ， 打 开 Test Instances( 测 试 实例 ) 窗 口 ， 如 图 2.54 所 示 。 单 击 窗口 


中 的 Open file 按钮 ， 打 开 刚 才 保存 的 测试 数据 集 weather.nominal.test.arff 文件 ， 单 击 
按钮 关闭 窗口 。 


Close 


接着 ， 单 击 Test options 选项 组 下 部 的 More options 按钮 ， 打 开 如 图 2.55 所 示 的 
Classifier evaluation options( 分 类 器 评估 选项 ) 对 话 框 ， 单 击 对 话 框 中 部 的 Choose 按钮 ， 选 
择 PlainText 选项 ， 该 选项 使 分 类 器 的 输出 中 包含 预测 信息 ， 单 击 OK 按钮 关闭 对 话 框 。 

现在 ， 一 切 准备 都 已 就 绪 。 单 击 Start 按钮 启动 分 类 器 训练 和 评估 过 程 ， 像 以 前 那样 ， 
Weka 会 在 分 类 器 输出 区 域 输出 性 能 统计 信息 。 仔 细 查 看 ， 会 发 现 多 了 如 下 一 项 对 测试 集 


的 预测 结果 ， 表 明 测试 集 仅 有 一 个 实例 ， 预 测 值 和 实际 值 都 为 yes， 预 测 没有 错误 。 


=—= Predictions on test set 一 


inst# actual predicted error prediction 
和 1:yes 1:yes 工 
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2.54 Test Instances 窗口 2.55 ”Classifier evaluation options 对 话 框 


3. 使 用 决策 规则 


本 示例 使 用 决策 规则 训练 天 气 数据 集 ， 并 评估 分 类 器 性 能 。 

首先 启动 探索 者 界面 ， 在 Preprocess 标签 页 中 加 载 weather.nominal.arff 数据 文件 。 切 
换 至 Classify 标签 页 ， 单 击 Choose 按钮 ， 选 择 rules 条 目下 的 JRip 分 类 器 ， 保 持 默认 参数 
不 变 。 单 击 Start 按钮 启动 训练 ， 训 练 结果 如 图 2.56 所 示 。 

经 过 训练 ， 生 成 的 规则 一 共有 如 下 三 条 : 


JRIP rules: 


(humidity = high) and (outlook = sunny) => play=no (3.0/0.0) 
(outlook = rainy) and (windy = TRUE) => play=no (2.0/0.0) 
=> play=yes (9.0/0.0) 


Number of Rules : 3 


每 条 规则 用 “=>” 分 开 规则 前 件 和 规则 后 件 ， 规 则 后 件 中 有 用 括号 括 起 的 两 个 数字 ， 
第 一 个 数字 表示 规则 覆盖 的 实例 数量 ， 第 二 个 数字 表示 错 分 的 实例 数量 。 注 意 到 第 三 条 规 
则 的 规则 前 件 为 空 ， 表 示 这 条 规则 覆盖 除去 前 两 条 规则 覆盖 的 训练 实例 外 的 所 有 实例 。 

同样 也 可 以 可 视 化 分 类 器 错误 。 右 击 结果 列表 中 的 mles.JRip 条 目 ， 从 弹出 的 快捷 菜 
单 中 选择 Visualize classifier errors 菜单 项 ， 会 弹出 一 个 散 点 图 窗口 ， 在 窗口 中 拉动 Jitter 滑 
块 ， 会 错开 一 些 相互 受 加 的 实例 ， 如 图 2.57 所 示 。 在 分 类 器 错误 散 点 图 中 ， 左 上 角 和 右 下 
角 的 小 方块 都 是 错误 分 类 的 实例 ， 左 下 角 的 小 蓝 叉 和 右上 角 的 小 红 叉 都 是 正确 分 类 的 实 
例 。 可 以 直观 地 看 到 一 共有 五 个 错 分 实例 。 

4. 使 用 线性 回归 

本 示例 使 用 线性 回归 训练 CPU 数据 集 ， 并 评估 分 类 器 性 能 。 

首先 启动 探索 者 界面 ， 在 Preprocess 标签 页 中 加 载 cpu.arff 数据 文件 。 如 图 2.58 所 
示 ， 在 界面 右 下 角 可 以 看 到 第 一 个 属性 MYCT 的 直方 图 ， 由 于 类 别 属性 是 连续 型 数值 ， 
此 该 直方 图 不 是 彩色 的 。 
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2.56 ”JRip 分 类 器 训练 结果 2.57 可视化 JRip 分 类 器 错误 散 点 图 


切换 至 Classify 标签 页 ， 单 击 Choose 按钮 ， 选 择 functions 条 目下 的 LinearRegression 
分 类 器 ， 保 持 默认 参数 不 变 ， 单 击 Start 按钮 启动 训练 ， 训 练 结 果 如 图 2.59 所 示 。 


2.58 ”加载 CPU 数据 集 2.59 LinearRegression 训练 结果 


从 结果 中 可 以 看 到 ，LinearRegression 分 类 器 构建 了 一 个 回归 公式 ， 交 叉 验 证 得 到 的 各 
项 误差 指标 显示 其 性 能 不 佳 。 

再 次 单 击 Choose 按钮 ， 选 择 另 一 种 分 类 器 M5P， 该 分 类 器 在 trees 条 目下 。 还 是 保持 
默认 参数 不 变 ， 单 击 Start 按钮 启动 训练 ， 训 练 结果 如 图 2.60 所 示 。 

从 图 2.60 中 可 以 看 到 ，M5P 是 决策 树 方案 和 线性 回归 方案 的 结合 体 。 前 半 部 分 使 用 
修剪 的 决策 树 ， 后 半 部 分 则 使 用 线性 回归 。 如 果 要 稍微 深入 了 解 M5P 算法 的 原理 ， 不 妨 
在 结果 列表 中 右 击 trees.M5P 条 目 ， 在 弹出 的 快捷 菜单 中 选择 Visualize tree 菜单 项 ，Weka 
弹出 如 图 2.61 所 示 的 决策 树 的 可 视 化 结果 。 修 剪 模型 树 ， 使 用 数据 集中 六 个 属性 中 的 三 个 
进行 分 又 ， 树 根 对 CHMIN 属性 分 又 ， 在 左 分 支 上 得 到 一 个 线性 模型 LM1， 剩 余 的 结构 放 
到 右 分支 上 ， 继 续 分 又 ， 得 到 另外 的 四 个 线性 模型 LM2~LM5。 一 共有 五 个 叶 节 点 ， 每 个 
叶 节点 对 应 一 个 线性 模型 。 括 号 中 有 两 个 数字 : 第 一 个 数字 表示 达到 该 叶 节 点 的 实例 数 
量 ;第 二 个 百分数 表示 用 该 叶 节点 的 线性 模型 对 这 些 实例 进行 预测 的 均 方 根 误差 ， 用 百 分 
比 表 示 对 全 部 训练 数据 计算 而 得 到 的 类 别 属性 的 标准 偏差 。 
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2.60 ”M5P 训练 结果 2.61 M5P 树 


为 了 对 两 个 分 类 器 的 性 能 有 一 个 直观 的 认识 ， 下 面 使 用 可 视 化 方法 来 观察 两 个 学 习 方 
案 的 误差 。 在 Result list 区 域 中 分 别 右 击 两 个 条 目 ， 在 弹出 的 快捷 菜单 中 选择 Visualize 
classifier errors 菜单 项 ， 得 到 两 个 学 习 方案 的 可 视 化 误差 如 图 2.62 和 图 2.63 所 示 。 显 示 的 
数据 点 随 类 别 属性 值 的 不 同 而 异 ， 由 于 类 别 属性 是 连续 型 数值 ， 因 此 数据 点 的 颜色 也 是 连 
续 变化 的 。 这 里 选择 MMAX 属性 作为 蕊 轴 ，CACH 属性 作为 了 轴 ， 这 样 数 据点 能 够 尽量 
散 开 。 每 个 数据 点 用 一 个 叉 号 表示 ， 其 大 小 表示 该 实例 的 误差 的 绝对 值 。 可 以 看 到 ， 图 2.63 
中 的 叉 号 数量 多 于 图 2.62 中 的 叉 号 数量 ， 说 明 M5P 的 性 能 优 于 LinearRegression。 当 然 ， 
如 果 觉 得 从 图 上 看 起 来 眼花 综 乱 ， 不 妨 只 从 分 类 器 输出 的 误差 指标 上 来 看 ， 例 如 ， 
LinearRegression 的 平均 绝对 误差 (MAE) 为 41.0886，M5P 的 平均 绝对 误差 (MAE) 为 
29.8309， 从 其 他 指标 的 比较 也 可 以 看 出 MSP 的 性 能 较 好 。 
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图 2.62 LinearRegression 误差 图 2.63 M5P 误差 


5. 使 用 用 户 分 类 器 


用 户 分 类 器 (User Classifier) 人 允许 Weka 用 户 以 交互 方式 建立 自己 的 分 类 器 。 该 分 类 器 
位 于 分 层 列表 中 的 trees 条 目 之 下 ， 名 称 为 UserClassifier， 全 名 为 weka.classifiers.trees. 
UserClassifier。 如 果 在 自己 的 Weka 版 本 中 找 不 到 该 分 类 器 ， 说 明 还 没有 安装 ， 请 按照 第 1 
章 中 Weka 包 管理 器 的 相关 内 容 进行 安装 。 

本 例 使 用 segment 数据 集 来 说 明 操作 方式 。 根 据 给 定 的 平均 intensity( 亮 度 )、hue( 色 
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调 )、size( 大 小 )、position( 位 置 )， 以 及 各 种 简单 的 纹理 特征 的 属性 ， 将 视觉 图 像 数 据 分 割 
成 各 种 分 类 标签 ， 如 grass( 草 )、sky( 天 空 )、foliage( 树 叶 )、brick( 砖 ) 和 cement( 水 泥 )。 训 练 
数据 文件 随 Weka 软件 配 附 ， 名 称 为 segment-challenge.arff。 加 载 该 数据 文件 ， 选 择 
UserClassifier 分 类 器 。 

评估 使 用 特殊 的 测试 集 ， 名 为 segment-test.arff， 在 Classify 标签 页 的 Test options 选项 
组 中 选中 Supplied test set( 提 供 测 试 集 ) 单 选 按钮 。 这 里 要 注意 ， 用 户 分 类 器 不 能 使 用 交叉 
验证 进行 评估 ， 因 为 无 法 为 每 个 折 都 手动 构建 分 类 器 。 单 击 Supplied test set 单 选 按钮 后 面 
的 Set 按钮 ， 弹 出 Test Instances( 测 试 实例 ) 窗 口 ， 如 图 2.64 
所 示 。 单 击 Open file 按钮 ， 选 择 data 目录 下 的 segment- 
test.arff 文件 ， 再 单 击 Close 按钮 关闭 Test Instances 窗口 。 

然后 ， 单 击 Classify 标签 页 中 的 Start 按钮 ， 启 动 交互 构 
建 分 类 器 的 界面 。 这 时 ， 探 索 者 界面 右 下 角 的 小 鸟 站 起 来 不 
断 走动 ， 表 明 Weka 正在 等 待 用 户 完成 分 类 器 的 构建 工作 。 

弹出 的 窗口 中 包括 Tree Visualizer( 树 可 视 化 工具 ) 和 图 2.64 Test Instances 窗口 
Data Visualizer( 数 据 可 视 化 工具 ) 两 个 标签 页 ， 可 以 切换 不 同 
的 视图 。 前 者 显示 分 类 树 的 当前 状态 ， 并 且 每 个 节点 都 给 出 到 达 该 节点 的 每 个 类 别 的 实例 
数目 。 构 建 用 户 分 类 器 的 目标 就 是 得 到 一 棵 叶 节 点 尽 可 能 纯净 的 树 。 最 初 只 有 一 个 根 节 
点 ， 其 中 包含 全 部 数据 。 可 以 切换 到 Data Visualizer 标签 页 去 创建 分 割 ， 其 中 显示 了 一 个 
二 维 散 点 图 。 可 以 参考 2.7.1 节 中 介绍 的 Visualize 标签 页 的 使 用 方法 ， 选 择 一 个 属性 作为 
了 革 轴 ， 另 一 个 属性 作为 了 轴 。 这 里 的 目标 是 要 找到 一 个 对 轴 和 了 轴 的 属性 组 合 ， 将 不 同类 
别 尽 可 能 完全 进行 分 离 。 尝 试 多 遍 以 后 ， 读 者 可 能 会 找到 一 个 好 的 选择 : 使 用 region- 
centroid-row 属性 作为 蕊 轴 ， 使 用 intensity-mean 属性 作为 工 轴 ， 这 样 会 将 红色 的 实例 (位 
于 散 点 图 左上 方 ) 几 乎 完全 与 其 他 实例 分 离 ， 如 图 2.65 所 示 。 

找到 了 很 好 的 分 离 点 之 后 ， 必 须 在 图 中 指定 一 个 区 域 。 在 Jitter 滑 块 上 方 的 下 拉 列 表 
框 中 可 以 选择 四 种 选择 工具 ， 选 择 Select Instance( 选 择 实例 ) 选 项 ， 可 标识 一 个 特定 实例 ， 
选择 Rectangle( 和 矩形) 选项 ， 可 在 图 形 上 拖 出 一 个 矩形 ;选择 Polygon( 多 边 形 ) 选 项 ， 可 绘制 
一 个 自由 形状 的 多 边 形 ; 选择 Polyline( 折 线 ) 选 项 ， 可 绘制 一 条 自由 形状 的 折线 。 其 操作 方 
式 都 是 : 单 击 添加 一 个 项 点， 右 击 完成 操作 。 一 旦 选择 某 个 区 域 ， 该 区 域 会 变 成 灰色 。 在 
图 2.65 中 ， 用 户 已 经 定义 好 了 一 个 矩形 。 如 果 单 击 Submit( 提 交 ) 按 钮 ， 则 会 在 树 中 创建 两 
个 新 的 节点 ， 一 个 节点 容纳 选 定 的 实例 ， 另 一 个 节点 容纳 其 余 的 实例 。Clear( 清 除 ) 按 钮 用 
于 清除 选择 ，Save( 保 存 ) 按 钮 用 于 将 当前 树 的 节点 实例 保存 为 一 个 ARFF 文件 。 

这 时 ，Tree Visualizer 标签 页 中 显示 如 图 2.66 所 示 的 树 。 左 边 的 节点 表示 sky 类 别 ， 
纯粹 只 有 一 种 类 别 ， 但 右边 的 节点 还 是 混合 了 多 个 分 类 ， 需 要 进一步 进行 分 割 。 单 击 不 同 
节点 ， 可 以 在 Data Visualizer 标签 页 中 切换 显示 不 同 的 数据 子 集 。 继 续 添加 节点 ， 直 到 得 
到 满意 的 结果 ， 也 就 是 说 ， 直 到 叶 节点 大 多 是 只 有 一 种 分 类 的 纯 节 点 为 止 。 然 后 ， 在 Tree 
Visualizer 标签 页 的 任意 空白 处 右 击 ， 并 在 弹出 的 快捷 菜单 中 选择 Accept the Tree (接受 树 ) 
菜单 项 。Weka 使 用 测试 集 评估 建立 的 树 ， 并 输出 性 能 统计 信息 。 对 于 本 例 ，90% 已 经 是 很 
高 的 得 分 了 。 

这 是 非常 考验 细心 和 耐心 的 工作 ， 如 果 能 得 到 93% 以 上 的 成 绩 是 很 值得 骄傲 的 。 


图 2.65 数据 可 视 化 工具 图 2.66 树 可 视 化 工具 


现在 和 Weka 的 机 器 学 习 比 试 一 下 。 还 是 使 用 同样 的 训练 集 和 测试 集 ， 但 选择 J48 分 
类 器 来 替换 用 户 分 类 器 ， 单 击 Start 按钮 启动 训练 和 评估 。 本 例 J48 分 类 器 的 正确 率 高 达 
96.1728%， 的 确 是 手工 交互 进行 分 类 难以 达到 的 目标 。 

6. 使 用 支持 向 量 机 

本 实践 分 为 两 个 部 分 ， 第 一 部 分 展示 如 何 使 用 SMO 分 类 器 ， 第 二 部 分 展示 如 何 使 用 
LibSVM。 

启动 探索 者 界面 ， 首 先 在 Preprocess 标签 页 中 加 载 iris 数据 集 ， 然 后 切换 至 Classify 标 
签 页 ， 单 击 Classifier 选项 组 中 的 Choose 按钮 ， 选 择 functions 条 目下 的 SMO 分 类 器 ， 使 
用 默认 的 十 折 交 叉 验 证 测试 选项 ， 单 击 Start 按钮 启动 分 类 模型 构建 并 评估 ， 运 行 结果 如 
图 2.67 所 示 。 


2.67 ”SMO 运行 结果 


本 例 使 用 指数 为 1 的 PolyKemel( 多 项 式 核 )， 使 得 模型 成 为 线性 支持 向 量 机 。 由 于 iris 
数据 包含 三 个 类 别 值 ， 就 输出 三 个 对 应 的 二 元 SMO 模型 ， 这 是 因为 一 个 超 平面 能 分 隔 任 
意 两 个 可 能 的 类 别 值 。 此 外 ， 由 于 SVM 是 线性 的 ， 超 平面 表示 为 在 原来 空间 中 的 属性 值 
的 函数 ， 参 见 图 2.67 中 的 函数 表达 式 。 
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2.68 所 示 为 将 多 项 式 核 函 数 的 指数 (exponent) 选 项 设置 为 2 的 结果 ， 这 使 得 支持 向 
量 机 成 为 非 线 性 的 。 和 前 面 一 样 ， 也 有 三 个 二 元 的 SMO 模型 ， 但 这 次 超 平面 表示 为 支持 
向 量 的 函数 。 支 持 向 量 显示 在 尖 括 号 中 ， 还 显示 其 系数 w 的 值 。 在 每 个 函数 的 最 后 ， 显 示 
偏 移 量 参数 6 的 值 (等 同 于 ao)， 参 见 图 2.68 中 的 函数 表达 式 。 


2.68 ”指数 设置 为 2 的 结果 


图 2.69 所 示 为 两 次 实验 的 混淆 和 矩阵。 比较 后 容易 得 出 ， 两 次 实验 使 用 的 是 不 同 的 多 项 
式 核 ， 使 得 支持 向 量 机 一 个 为 线性 ， 另 一 个 为 非 线性 ， 但 对 于 本 例 来 说 ， 尽 管 错 分 的 实例 
不 同 ， 但 两 者 错 分 的 实例 数 都 是 6 个 。 


=== Confusion Matrix === === Confusion Matrix === 
a b c <-- classified as a b ec <-- classified as 
50 0 01 aw= Iris-setosa 50 0 01 am Iris-setosa 
049 1 1 b= Iris-versicolor 047 3 1 b= Iris-versicolor 
0 545 1 c= Iris-virginica 0 3471 c= Iris-virginica 
(a) 指数 为 1 (b) 指数 为 2 


图 2.69 ”两 次 实验 的 混淆 矩阵 


LibSVM 是 中 国 台湾 的 林 智 仁 (Chih-Jen Lin) 教 授 于 2001 年 开发 的 一 套 支 持 向 量 机 的 
库 ， 网 址 为 http://www.csie.ntu.edu.tw/~cjlin/libsvm/。 该 库 的 运算 速度 非常 快 并 且 开 源 ， 支 
持 Java、C#、.Net、Python、Matlab 等 多 种 语言 ， 因 此 非常 受用 户 欢 迎 。 

Weka 3.7.2 以 后 的 版 本 都 直接 支持 LibSVM， 包 装 LibSVM 的 工作 由 Yasser EL- 
Manzalawy 完成 ， 网 址 为 http://weka.wikispaces.com/LibSVM 。 最 重要 的 类 就 是 包装 
LibSVM 工具 的 包装 类 一 一 LibSVM， 由 于 使 用 LibSVM 构建 SVM 分 类 器 ， 因 此 它 的 运行 
比 SMO 快 得 多 。 并 且 LibSVM 可 以 支持 One-class SVM、Regressing SVM 以 及 nu-SVM。 

下 面 简 单 说 明 实验 步 又。 如果 没有 安装 LibSVM， 请 关闭 包括 探索 者 在 内 的 Weka 图 
形 用 户 界面 ， 然 后 按照 第 1 章 中 介绍 的 包 管理 器 的 相关 内 容 安装 LibSVM， 当 前 LibSVM 
包 的 版 本 为 1.0.3。 接 着 启动 探索 者 界面 ， 加 载 inis 数据 集 ， 选 择 LibSVM 分 类 器 ， 并 单 击 
Start 按钮 运行 ， 结 果 如 图 2.70 所 示 。 可 以 看 到 ，LibSVM 错 分 的 实例 数 仅 有 5 个 ， 比 
SMO 性 能 稍 好 。 
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图 2.70 LibSVM 运行 结果 

7. 使 用 元 学 习 器 

元 学 习 器 能 将 简单 的 分 类 器 变 为 更 加 强大 的 学 习 器 ， 这 里 以 实例 进行 说 明 。 

首先 加 载 芒 尾 花 数 据 集 ， 然 后 选择 DecisionStump 分 类 器 ， 这 是 一 个 被 称 为 决策 树桩 
的 简单 分 类 器 ， 全 名 为 weka.classifiers.trees.DecisionStump 。 接 着 选择 十 折 交 叉 验 证 为 测试 
选项 进行 训练 和 评估 ， 得 到 的 分 类 正确 率 为 66.6667%。 

接 下 来 ， 选 择 AdaBoostM1 分 类 器 ， 这 是 一 个 使 用 提升 算法 的 集成 学 习 器 ， 其 全 名 为 
weka.classifiers.meta.AdaBoostM1。 单 击 该 分 类 器 进行 配置 ， 出 现 如 图 2.71 所 示 的 对 象 编 
辑 器 对 话 框 。 为 了 和 DecisionStump 分 类 器 进行 比较 ， 设 置 AdaBoostM1 的 基 分 类 器 为 
DecisionStump 分 类 器 。 如 果 需 要 ， 还 可 以 继续 单 击 以 
进一步 配置 基 分 类 器 的 选项 ， 但 由 于 DecisionStump 
没有 属性 需要 设置 ， 因 此 可 单 击 OK 按钮 返回 到 
Classify 标签 页 ， 并 单 击 Start 按钮 启动 训练 。 

图 2.71 中 的 numlterations 参数 默认 为 10， 即 表示 
训练 会 迭代 提升 DecisionStump 分 类 器 10 次 。 图 2.72 
所 示 的 运行 结果 表明 ， 在 150 个 iris 数据 中 ， 只 有 7 
个 错 分 的 实例 ， 分 类 正确 率 高 达 95.3333%。 

考虑 到 DecisionStump 算法 本 来 就 十 分 原始 ， 并 


且 只 经 过 很 少 次 数 的 迭代 提升 ， 可 知 其 性 能 提高 很 
大 ， 令 人 满意 。 图 2.71 AdaboostM1 分 类 器 选项 


8. 深入 研究 离散 化 

本 示例 研究 离散 化 的 效果 。 加 载 ionosphere.arff 数据 文件 构建 J48 决策 树 ， 该 数据 集 
包含 从 电离 层 传 回 的 雷达 信号 信息 。 数 据 集 共 有 34 个 属性 外 加 1 个 类 别 属性 ， 共 有 351 
个 实例 ， 没 有 缺失 值 。 二 元 类 别 标签 分 别 是 good 和 bad， 其 中 ，good 的 样本 指 那些 能 够 
显示 出 电离 层 中 的 一 些 结构 类 型 证 据 的 实例 ， 而 bad 的 样本 指 信号 直接 穿 过 电离 层 的 实 
例 。 更 为 详细 的 信息 可 以 查看 ARFF 文件 中 的 注释 。 
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2.72 AdaboostM1 分 类 器 运行 结果 


首先 以 无 监督 离散 化 开始 ， 采 用 十 折 交 叉 验证 ， 比 较 不 同学 习 方案 的 正确 率 以 及 决策 
树 的 大 小 。 采 用 J48 分 类 器 对 原始 数据 进行 分 类 ， 正 确 分 类 的 实例 数量 为 321， 正 确 率 为 
91.453%， 叶 节点 数 为 18， 树 的 大 小 为 35; 然后 使 用 无 监督 的 Discretize 过 滤器 ， 保 持 过 
滤器 参数 为 默认 值 ， 先 进行 过 滤 ， 再 采用 J48 分 类 器 对 过 滤 后 的 数据 进行 分 类 ， 正 确 分 类 
的 实例 数量 为 304， 正 确 率 为 86.6097%， 叶 节点 数 为 46， 树 的 大 小 为 51; 最 后 将 无 监督 
Discretize 过 滤器 的 makeBinary 参数 设置 为 True， 其 余 参 数 仍 为 缺 省 值 ， 先 进行 过 滤 ， 再 
采用 J48 分 类 器 对 过 滤 后 的 数据 进行 分 类 ， 正 确 分 类 的 实例 数量 为 326， 正 确 率 为 
92.8775%， 叶 节点 数 为 9， 树 的 大 小 为 17。 无 监督 离散 化 的 效果 如 表 2.3 所 示 。 


表 2.3 无 监督 离散 化 效果 


时节 点 数 | 树 的 大 小 
| 无 | 天 | 本 | 3 | os0% | 1 | 3 


无 监督 的 

False J48 304 86.6097% 51 
Discretize 
无 监督 的 

. Trme J48 326 92.8775% 17 
Discretize 


研究 表 2.3 的 结果 ， 可 以 得 出 这 样 的 结论 : 使 用 二 元 化 的 无 监督 离散 化 ， 可 以 提高 分 
类 器 的 正确 率 ， 并 大 幅 减少 决策 树 的 大 小 。 

现在 轮 到 有 监督 离散 化 。 这 里 出 现 一 个 微妙 的 问题 ， 如 果 简 单 地 重复 使 用 有 监督 离散 
化 方法 蔡 换 无 监督 离散 化 ， 结 果 必 人 然 过 于 乐观 。 因 为 这 里 将 交叉 验证 用 于 评价 ， 测 试 集 是 
的 数据 在 确定 离散 间隔 时 已 经 使 用 过 ， 必 然 造 成 如 同 预 先 偷 看 到 答案 再 考试 的 效果 。 对 于 
新 的 数据 ， 这 就 无 法 给 出 一 个 合理 的 性 能 评估 。 

要 合理 地 评估 有 监督 离散 化 ， 最 好 使 用 Weka 的 元 学 习 器 FilteredClassifier。 它 仅 使 用 
训练 数据 来 构建 过 滤器 ， 然 后 ， 使 用 训练 数据 计算 得 到 的 离散 间隔 来 离散 化 测试 数据 ， 并 
予以 评估 。 总 之 ， 这 种 方式 完全 符合 在 真实 实践 中 处 理 新 数据 的 过 程 。 

仍然 使 用 ionosphere arff 数据 文件 ， 取 消 在 Preprocess 标签 页 中 选择 的 过 滤器 ， 并 在 Classify 
标签 页 中 选择 FilteredClassifier 分 类 器 ， 其 全 名 为 weka.classifiers meta .FilteredClassifier。 


ni 


设置 该 分 类 器 的 classifier 为 418，filter 为 有 监督 的 Discretize， 保 持 默认 参数 不 变 ， 如 图 2.73 
所 示 。 
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2.73 设置 FilteredClassifier 分 类 器 


这 时 ， 单 击 Start 按钮 启动 训练 及 评估 ， 得 到 输出 结果 : 正确 分 类 的 实例 数量 为 320， 
正确 率 为 91.1681%， 叶 节点 数 为 21， 树 的 大 小 为 27。 然 后 ， 修 改 FilteredClassifier 分 类 器 
的 filter 参数， 将 有 监督 Discretize 的 makeBinary 参数 设置 为 True， 其 余 参数 仍 为 缺 省 
值 ，filter 文本 框 中 的 命令 行 应 该 是 Discretize -D -R first-last。 再 次 单 击 Start 按钮 ， 得 到 输 
出 结果 : 正确 分 类 的 实例 数量 为 325， 正 确 率 为 92.5926%， 叶 节点 数 为 9， 数 的 大 小 为 
17。 有 监督 离散 化 的 效果 如 表 2.4 所 示 。 


表 2.4 有 监督 离散 化 效果 


叶 节 点 数 | 树 的 大 小 
94ssoe | Is | 35 
21 


有 监督 的 

. False J48 320 91.1681% 
Discretize 
有 监督 的 

True J48 325 92.5926% i 
Discretize 


仍然 可 以 得 出 这 样 的 结论 : 使 用 二 元 化 的 有 监督 离散 化 ， 可 以 提高 分 类 器 的 正确 率 ， 
并 大 幅 减少 决策 树 的 大 小 。 

9. 初 识 最 近邻 分 类 器 

本 示例 使 用 IBk 分 类 器 ， 这 是 一 种 最 近邻 分 类 器 ， 既 可 以 在 交叉 验证 的 基础 上 选择 
合适 的 值 ， 也 可 以 对 实例 加 距离 权重 。 可 选 的 距离 加 权 方 法 有 如 下 三 种 : No distance 
weighting( 默 认 )、Weight by l/distance 和 Weight by 1-distance。 

在 探索 者 界面 中 加 载 glass.arff 数据 集 ， 切 换 至 Classify 标签 页 ， 单 击 Choose 按钮 选 
择 IBk 分 类 器 ， 其 全 名 为 weka.classifiers.lazy.IBk。 使 用 交叉 验证 测试 该 分 类 器 的 性 能 ， 
使 用 交叉 验证 并 保持 折 数 为 默认 值 10。IBk 的 选项 都 保持 为 默认 值 ， 这 里 要 注意 的 参数 是 
KNN，KNN 值 默认 为 1， 这 是 分 类 时 所 用 的 近邻 实例 的 数量 。 

单 击 Start 按钮 运行 一 次 分 类 算法 ， 记 录 正 确 分 类 的 百分比 ， 其 值 为 70.5607%。 然 
后 ， 修 改 KNN 值 为 5， 再 次 运行 分 类 算法 ， 记 录 正 确 分 类 的 百分比 ， 其 值 为 67.757%， 如 
图 2.74 所 示 。 
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2.74 1IBk 分 类 器 


可 见 ， 将 KNN 参数 值 由 1 增 大 至 5 后 ，IBk 的 准确 度 稍微 有 所 下 降 。 从 这 个 示例 中 ， 
读者 可 能 会 凭 直觉 得 出 KNN 值 越 小 越 好 的 结论 ， 事 实 真是 这 样 吗 ? 且 看 后 文 。 


10. 分 类 噪声 与 最 近邻 学 习 


和 其 他 技术 一 样 ， 最 近邻 学 习 对 训练 数据 中 的 噪声 很 敏感 。 本 示例 将 大 小 不 等 的 分 类 
噪声 注入 数据 中 ， 并 观察 其 对 分 类 器 性 能 的 影响 。 

本 示例 使 用 一 种 称 为 AddNoise 的 无 监督 的 属性 过 滤器 来 添加 噪声 ， 该 属性 过 滤器 位 
于 weka.filters.unsupervised.attribute 包 中 ， 使 用 该 过 滤器 ， 可 以 将 数据 中 一 定 比 例 的 类 别 标 
签 翻转 为 随机 选择 的 其 他 值 。 然 而 ， 对 于 本 次 实验 ， 最 重要 的 是 要 保证 测试 数据 不 受 分 类 
噪声 的 影响 ， 这 样 才能 得 到 可 靠 的 评估 结果 。 很 多 实际 情况 都 要 求 过 滤 训 练 数据 ， 但 不 能 
过 滤 测 试 数据 ， 满 足 这 种 要 求 的 元 学 习 器 称 为 FilteredClassifier， 位 于 weka.classifiers.meta 
包 中 。 本 例 将 该 元 学 习 器 配置 为 使 用 IBk 作为 分 类 器 ， 使 用 AddNoise 作为 过 滤器 。 在 运 
行 学 习 算 法 之 前 ，FilteredClassifier 先 对 数据 应 用 过 滤器 进行 过 滤 ， 分 两 批 完成 先 过 滤 训 
练 数据 ， 后 过 滤 测 试 数据 。AddNoise 过 滤器 只 在 遇 到 的 首 批 数据 中 添加 噪声 ， 也 就 是 说 ， 
随后 的 测试 数据 在 通过 时 不 受 任何 影响 。 

还 是 使 用 玻璃 数据 集 ， 在 Classify 标签 页 中 选择 FilteredClassifier 分 类 器 ， 然 后 打开 通 
用 对 象 编辑 器 编辑 该 分 类 器 的 参数 ， 设 置 classifier 为 IBk，filter 为 AddNoise， 如 图 2.75 
所 示 。 
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2.75 ”FilteredClassifier 分 类 器 参数 


修改 IBk 分 类 器 的 邻 


居 数 量 KNN 参数 ， 分 别 设置 为 k = 1、k = 3、 大 = 5。 同 时 修改 


AddNoise 过 滤器 的 分 类 噪声 百分比 percent 参数 ， 从 0%、10% 一 直到 100%。 每 次 设置 完 


毕 后 ， 单 击 Start 按钮 启动 训练 和 评估 ， 将 得 到 的 分 类 正确 率 填 入 表 2.5 中 。 
表 2.5 不 同 近邻 数量 及 噪声 对 IBk 的 影响 


噪声 百分比 
0% 


10% 


20% 


30% 
40% 


50% 


60% 


70% 


80% 
90% 
100% 


表 2.5 供 读 者 自行 完成 。 为 了 便于 说 明 问 题 ， 在 表 2.6 中 列 出 答案 ， 并 在 图 2.76 中 夯 


出 对 应 的 折线 图 。 
表 2.6 不 同 近邻 数量 及 噪声 对 IBk 的 影响 答案 
噪声 百分比 k=1 k=3 k=5 

0% 70.5607% 71.9626% 67.7570% 

10% 62.6168% 69.6262% 64.4860% 

20% 50.4673% 63.0841% 61.6822% 

30% 47.1963% 58.4112% 59.8131% 

40% 41.1215% 54.6729% 55.1402% 

50% 33.1776% 44.3925% 45.3271% 

60% 27.1028% 35.5140% 35.5140% 

70% 20.0935% 28.5047% 28.9720% 

80% 14.0187% 21.0280% 21.0280% 

90% 7.9439% 13.5514% 9.3458% 

100% 4.6729% 7.9439% 7.4766% 

在 图 2.76 所 示 的 折线 图 中 ， 横 坐标 为 噪声 ， 纵 坐标 为 分 类 准确 率 。 对 折线 图 进行 分 


析 ， 容 易 得 到 如 下 结论 。 


第 一 ， 当 噪声 增 大 时 ， 分 类 准确 率 随 之 下 降 。 


第 二 ， 改 变 大 值 ， 对 分 类 准确 率 的 影响 较为 复杂 。 总 体 来 说 ， 增 大 值 会 抑制 噪声 ， 
增加 分 类 准确 率 ; 但 大 值 过 大 ， 且 分 类 噪声 百分比 较 小 ( 约 低 于 20%) 时 ， 会 降低 分 类 准确 率 。 
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2.76 ”不同 近邻 数量 及 噪声 对 IBk 的 影响 折线 图 


上 述 结论 告诉 我 们 ， 由 于 数据 集 或 多 或 少 都 会 受到 噪声 干扰 ， 最 近邻 学 习 需 要 找到 一 
个 合适 的 大 值 ， 既 能 抑制 噪声 干扰 ， 又 不 显著 降低 分 类 准确 率 。 


11. 研究 改变 训练 集 大 小 的 影响 


本 示例 讨论 学 习 曲 线 ， 显 示 训 练 数据 量 逐 渐 增 加 后 的 效果 。 同 样 使 用 玻璃 数据 集 ， 但 
这 一 次 使 用 IBk 以 及 在 Weka 中 的 实现 为 J48 的 C4.5 决策 树 学 习 器 。 

获取 学 习 曲 线 ， 再 次 使 用 FilteredClassifier 分 类 器 ， 这 一 次 结合 Resample( 其 全 称 为 
weka.filters.unsupervised.instance.Resample) 过 滤器 ， 其 功能 是 抽取 出 给 定 的 一 定 比 例 的 数据 
集 ， 返 回 减少 后 的 数据 集 。 与 上 一 个 示例 相同 ， 只 为 第 一 批 训练 数据 应 用 过 滤器 ， 所 以 测 
试 数据 在 通过 FilteredClassifier 分 类 器 到 达 分 类 器 之 前 ， 并 不 会 受 任何 修改 。 

具体 步骤 是 ， 首 先 加 载 玻 璃 数据 集 ， 然 后 选择 FilteredClassifier 分 类 器 ， 打 开通 用 对 
象 编辑 器 编辑 该 分 类 器 的 参数 ， 分 别 设置 classifier 为 IBk 和 J48，filter 为 Resample， 如 
图 2.77 所 示 。 
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2.77 FilteredClassifier 分 类 器 参数 


设置 classifier 为 IBk(f=1) 或 418， 同 时 修改 Resample 过 滤器 的 子 样本 大 小 百分比 
sampleSizePercent 参数 ， 从 10% 一 直到 100%。 每 次 设置 完毕 后 ， 单 击 Start 按钮 启动 训练 


和 评估 ， 将 得 到 的 分 类 正确 率 填 入 表 2.7 中 。 


表 2.7 供 读者 自行 完成 。 为 了 便于 说 明 ， 在 表 2.8 中 列 出 答案 ， 并 在 图 2.78 中 画 出 对 


表 2.7 改变 训练 集 大 小 对 IBk 和 J48 的 影响 
训练 集 百 分 比 IBk J48 
10% 
20% 
30% 
40%, 
50% 
60% 
70% 
80% 
90% 
100% 
表 2.8 改变 训练 集 大 小 对 IBk 和 J48 的 影响 答案 
训练 集 百分比 IBk J48 
10% 52.8037% 45.3271% 
20% 63.5514% 53.2710% 
30% 60.2804% 59.3458% 
40% 63.5514% 64.9533% 
50% 62.6168% 63.0841% 
60% 64.4860% 69.1589% 
70% 65.8879% 67.7570% 
80% 67.7570% 70.0935% 
90% 67.2897% 69.1589% 
100% 66.8224% 68.2243% 


在 图 2.78 中 ， 横 坐标 为 训练 集 大 小 ， 纵 坐标 为 分 类 准确 率 。 容 易 从 中 得 到 以 下 结论 。 


第 一 ， 当 增 大 训练 数据 量 时 ， 分 类 准确 率 随 之 增加 。 
第 二 ， 相 对 于 IBk， 增 大 训练 数据 量 对 J48 的 影响 更 为 显著 。 
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2.78 ”改变 训练 集 大 小 的 影响 折线 图 


24 聚 类 


聚 类 就 是 对 物理 对 象 或 抽象 对 象 的 集合 进行 分 组 的 过 程 ， 所 生成 的 组 称 为 艇 (cluster)， 
簇 是 数据 对 象 的 集合 。 簇 内 部 任意 两 个 对 象 之 间 应 该 具有 较 高 的 相似 度 ， 而 隶属 于 不 同 簇 
的 两 个 对 象 之 间 应 该 有 具有 较 高 的 相 异 度 。 相 异 度 一 般 根据 描述 对 象 的 属性 值 进行 计算 ， 最 
常 采用 的 度量 指标 是 对 象 间 的 距离 。 

Weka 专门 使 用 Cluster 标签 页 来 处 理 聚 类 问题 ， 如 图 2.79 所 示 。 
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图 2.79 ”Cluster 标签 页 


2.4.1 ” Cluster 标签 页 的 操作 


在 Cluster 标签 页 中 ， 选 择 和 配置 对 象 的 过 程 与 Preprocess 和 Classify 标签 页 类 似 ， 下 
面 对 操 作 方 法 进行 说 明 。 


Cluster 标签 页 的 最 上 部 是 Clusterer( 聚 类 器 ) 选 项 组 ， 其 中 包括 Choose 按钮 和 聚 类 器 文 
本 框 。 按 钮 用 于 选择 Weka 提供 的 聚 类 器 ， 文 本 框 用 于 显示 当前 选择 的 聚 类 器 的 名 称 和 参 
数 。 单 击 文本 框 ， 会 弹出 一 个 通用 对 象 编辑 器 对 话 框 ， 与 过 滤器 和 分 类 器 的 对 象 编辑 器 对 
话 框 的 功能 一 样 ， 可 以 用 来 对 当前 聚 类 器 进行 设置 。 右 击 (或 在 按 住 Alt 键 和 Shift 键 的 同 
时 单 击 ) 聚 类 器 文本 框 ， 会 弹出 一 个 快捷 菜单 ， 选 择 Show Properties 菜单 项 可 以 打开 通用 对 
象 编辑 器 对 话 框 ， 选 择 Copy configuration to clipboard 菜单 项 可 以 将 当前 的 设置 字符 串 复 制 
到 剪贴 板 ， 选 择 Edit configuration 菜单 项 可 以 让 用 户 修改 设置 ， 选 择 Enter configuration 菜 
单项 可 以 直接 输入 设置 字符 串 ， 功 能 与 过 滤器 和 分 类 器 的 相似 。 

Cluster 标签 页 的 左 部 是 Clusterer mode( 聚 类 器 模式 ) 选 项 组 。 该 选项 组 用 于 设置 聚 类 模 
式 及 如 何 评估 结果 的 选项 ， 最 终 将 设置 的 选项 应 用 到 当前 选择 的 聚 类 器 中 。 聚 类 模式 
如 下 。 

(1) Use training set( 使 用 训练 集 ):， 直接 将 训练 集 实例 用 于 测试 。 

(2) Supplied test set( 提 供 测 试 集 ): 从 一 个 文件 中 加 载 一 组 测试 实例 。 单 击 Set 按钮 会 弹 
出 一 个 对 话 框 ， 允 许 用 户 选 择 测试 的 实例 文件 。 

(3) Percentage split( 按 比例 分 割 ): 在 数据 集中 ， 取 出 特定 百分比 的 数据 来 作为 训练 数 
据 ， 其 余数 据 作 为 测试 数据 ， 评 价 聚 类 器 的 性 能 。 取 出 的 数据 量 取决 于 用 户 在 “%” 文 本 
框 中 输入 的 值 ， 默 认 取 出 66% 的 数据 作为 训练 集 。 

(4) Classes to clusters evaluation( 类 别 作 为 簇 的 评估 准则 )， 比 较 所 选择 的 簇 与 预先 指定 
的 数据 类 别 的 匹配 程度 。 该 选项 下 方 有 一 个 下 拉 列 表 框 ， 其 操作 与 在 Classify 标签 页 中 选 
择 类 别 属性 的 操作 一 样 。 

(5) Store clusters for visualization( 为 可 视 化 保存 簇 ): 选中 此 复 选 框 ， 在 训练 完成 后 ， 保 
存 簇 以 供 可 视 化 使 用 。 当 处 理 很 大 的 数据 集 遇 到 内 存 不 足 的 问题 时 ， 取 消 选中 此 选项 可 能 
会 有 帮助 。 默 认为 选中 。 

通常 情况 下 ， 在 聚 类 过 程 中 可 以 设置 忽略 一 些 数据 属性 。 单 击 Ignore attributes( 忽 略 属 
性 ) 按 钮 ， 会 弹出 一 个 小 窗口 ， 让 用 户 选 择 要 忽略 哪些 属性 。 单 击 窗口 中 的 属性 使 其 高 亮 ， 
按 住 Shift 键 可 选择 连续 范围 内 的 属性 ， 按 住 Ctrl 键 可 选择 或 反选 单个 属性 。 要 取消 选 
择 ， 可 单 击 Cancel 按钮 ， 要 激活 选择 ， 可 单 击 Select 按钮 。 下 一 次 运行 聚 类 算法 时 ， 会 忽 
略 选择 的 属性 。 

FilteredClusterer 元 聚 类 器 是 一 种 特殊 的 聚 类 器 ， 它 为 用 户 提供 在 聚 类 器 学 习 之 前 先 应 
用 过 滤器 的 方式 。 使 用 这 种 方法 ， 当 不 需要 在 Preprocess 标签 页 中 手动 应 用 过 滤器 时 ， 可 
以 在 学 习 的 同时 进行 数据 处 理 ， 这 在 需要 使 用 不 同 的 过 滤器 设置 方式 时 十 分 有 用 。 

和 Classify 标签 页 类 似 ，Cluster 标签 页 中 也 有 Start 按钮 和 Stop 按钮 。 单 击 Start 按钮 
开始 学 习 ， 学 习 结 果 会 显示 在 Clusterer output( 聚 类 器 输出 ) 区 域 ， 并 在 Result list( 结 果 列 
表 ) 区 域 创建 一 个 新 条 目 。 右 击 该 条 目 ， 也 会 弹出 快捷 菜单 ， 不 同 的 是 这 里 只 显示 两 个 可 
视 化 菜单 项 一 一 Visualize cluster assignments( 可 视 化 艇 分配) 和 Visualize tree( 可 视 化 树 )， 后 
者 在 不 可 用 时 会 变 灰 。 另 外 ，Visualize cluster assignments 窗口 中 有 一 个 Save 按钮 ， 用 于 
将 数据 保存 为 ARFF 文件 ， 用 户 可 以 查看 哪些 样本 被 分 配 到 哪个 簇 中 。 


2.4.2 ” 聚 类 算法 介绍 
本 节 介 绍 三 种 简单 但 重要 的 京 类 算法 。k 均值 算法 是 很 典型 的 基于 距离 的 聚 类 算法 ， 
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采用 距离 作为 相似 性 的 评价 指标 ， 试 图 划分 所 用 户 指定 个 数 ) 个 复 。 大 均值 算法 不 适合 处 理 
标 称 型 属性 ， 对 于 数值 型 属性 的 聚 类 效果 较 好 。EM(Expectation Maximization， 期 望 最 大 
化 ) 算 法 是 均值 算法 的 一 种 扩展 ， 它 不 把 对 象 分 配给 一 个 确定 的 簇 ， 而 是 根据 对 象 与 簇 之 
间 的 隶属 关系 发 生 的 概率 来 分 配对 象 。EM 算法 是 解决 数据 缺失 问题 的 一 种 出 色 算 法 。 
DBSCAN 算法 是 一 种 基于 密度 的 聚 类 算法 ， 簇 的 个 数 由 算法 自动 确定 。 其 将 低 密度 区 域 中 
的 点 视 为 噪声 而 忽略 ， 因 此 DBSCAN 不 产生 完全 聚 类 。 


1.k 均 值 算法 


均值 算法 比较 简单 ， 其 中 表示 用 户 指定 的 所 期 望 的 簇 个 数 。 其 基本 算法 是 ， 首 先 
选择 个 初始 质心 ， 将 每 个 数据 点 指派 给 最 近 的 质心 ， 指 派 给 一 个 质心 的 全 部 点 形成 一 个 
簇 ; 然后 根据 指派 给 徐 的 点 ， 更 新 每 个 徐 的 质心 ， 重 复 指派 及 更 新 步 又， 直到 簇 不 再 发 生 
变化 ， 即 质心 不 再 发 生变 化 为 止 。 算 法 的 伪 代 码 如 算法 2.7 所 示 。 

算法 2.7 基本 上 均值 算法 

选择 大 个 点 作为 初始 质心 

repeat 

将 每 个 点 指派 给 最 近 的 质心 ， 形 成 k 个 簇 
重新 计算 每 个 簇 的 质心 

until 质心 不 再 发 生变 化 

相似 度 的 计算 可 采用 欧 氏 距离 或 曼哈顿 距离 。 其 中 ， 欧 氏 距 离 是 指 两 点 之 间 的 欧 氏 空 
间 直 线 距离 ， 而 曼哈顿 距离 是 在 欧 氏 空间 固定 直角 坐标 系 上 两 点 所 形成 的 线段 对 轴 产 生 的 

考虑 邻近 度 为 欧 氏 距离 的 数据 ， 通 常 使 用 误差 的 平方 和 (Sum of the Squared Error，SSE) 
作为 度量 聚 类 质量 的 目标 函数 。SSE 定义 如 下 : 

SSE = Fdist(e,x) 


其 中 ，dist 表示 两 个 对 象 之 间 的 标准 欧 氏 距离 (L2); ci 为 簇 i 的 质心 ; x 为 属于 簇 i 的 数据 
点 的 集合 。 

Weka 提供 采用 均值 算法 进行 聚 类 的 SimpleKMeans。 簇 的 数目 由 参数 numClusters 
指定 ， 用 户 可 以 选择 欧 氏 距离 或 曼哈顿 距离 等 作为 距离 度量 。 如 果 使 用 曼哈顿 距离 ， 该 算 
法 实际 使 用 中 位 数 算法 ， 而 非 有 均值 算法 ， 质 心 基 于 中 位 数 而 不 是 均值 以 最 小 化 簇 内 的 

2. EM 算法 


EM 算法 是 在 概率 模型 中 寻找 参数 最 大 似 然 估计 或 者 最 大 后 验 估计 的 算法 ， 其 中 概率 
模型 依赖 于 无 法 观测 的 隐藏 变量 。EM 算法 经 常用 于 机 器 学 习 和 数据 聚 类 领域 。 

EM 算法 使 用 两 个 步骤 交替 进行 计算 。 第 一 步 是 计算 期 望 (E)， 利 用 对 隐藏 变量 的 现 有 
估计 值 ， 计 算 其 最 大 似 然 估 计 值 ， 第 二 步 是 最 大 化 (M)， 最 大 化 在 E 步 上 求 得 的 最 大 似 然 
值 来 计算 参数 的 值 。 然 后 将 M 步 上 找到 的 参数 估计 值 用 于 下 一 个 E 步 计算 中 ， 这 个 过 程 
不 断交 蔡 进 行 直至 收敛 。 

通过 交 蔡 使 用 这 两 个 步骤 ，EM 算法 逐步 改进 模型 的 参数 ， 使 参数 和 训练 样本 的 似 然 


概率 逐渐 增 大 ， 最 后 终止 于 一 个 极 大 点 。 

EM 算法 的 主要 目的 是 提供 一 个 简单 的 迭代 算法 计算 后 验 密度 函数 ， 它 的 最 大 优点 是 
简单 和 稳定 ， 但 容易 陷入 局 部 最 优 。 

Weka 提供 简单 的 EM 聚 类 算法 。EM 为 每 个 实例 分 配 一 个 概率 分 布 ， 表 明 它 属于 每 一 
个 艇 的 概率 。EM 能 用 交叉 验证 确定 创建 多 少 个 艇 ,或 者 指定 产生 多 少 个 簇 的 先 验 。 


3. DBSCAN 算法 


基于 密度 的 聚 类 寻找 由 低 密 度 区 域 分 割 的 高 密度 区 域 。DBSCAN 是 一 种 简单 、 有 效 的 
基于 密度 的 聚 类 算法 ， 它 诠释 了 基于 密度 的 聚 类 算法 的 很 多 重要 概念 。 首 先 定 义 几 个 术语 。 

(1) 核心 点 (core poinb: 核心 点 位 于 基于 密度 的 簇 的 内 部 。 点 的 邻 域 由 距离 函数 和 用 户 
指定 的 距离 e(Weka 使 用 epsilon 选项 来 指定 该 值 ) 决 定 。 核 心 点 定义 是 ， 该 点 给 定 邻 域内 的 
点 的 个 数 超过 给 定 的 阔 值 MinPts，MinPts 由 用 户 指定 。 

(2) 边界 点 (border poinb: 边界 点 不 是 核心 点 ， 但 落 在 某 个 核心 点 的 邻 域内 。 

(3) 噪声 点 noise point): 既 不 是 核心 点 又 不 是 边界 点 的 点 称 为 噪声 点 。 

DBSCAN 算法 的 伪 代 码 如 算法 2.8 所 示 。 任 意 两 个 足够 靠近 (相互 之 间 的 距离 在 = 之 内 ) 
的 核心 点 属于 同一 个 徐 。 同 样 ， 任 何 与 核心 点 足够 靠近 的 边界 点 也 放 到 与 核心 点 相同 的 艇 
中 。 如 果 一 个 边界 点 靠近 不 同 簇 的 核心 点 ， 则 需要 评判 是 否 丢 弃 噪 声 点 。 


算法 2.8 DBSCAN 算法 


将 所 有 点 标记 为 核心 点 、 边 界 点 或 噪声 点 

删除 噪声 点 

为 距离 在 s 之 内 的 所 有 核心 点 之 间 添加 一 条 连接 边 

每 组 连通 的 核心 点 形成 一 个 能 

将 每 个 边界 点 指派 给 一 个 与 之 关联 的 核心 点 的 簇 

DBSCAN 使 用 基于 密度 簇 的 定义 ， 是 相对 抗 噪声 的 ， 并 且 能 够 处 理 任意 形状 和 大 小 的 
徐 。 因此，DBSCAN 算法 能 够 发 现 均值 算法 不 能 发 现 的 徐 。 但 是 ，DBSCAN 在 处 理 簇 
密度 变化 太 大 或 高 维 数据 时 ， 会 遇 到 密度 定义 更 加 困难 的 问题 。 

Weka 提供 DBSCAN 算法 ， 它 使 用 欧 氏 距离 度量 以 确定 哪些 实例 属于 哪个 能 。 与 大 均 
值 算法 不 同 ，DBSCAN 算法 可 以 自动 确定 簇 的 数目 ， 发 现任 意 形状 的 徐 ， 并 纳入 离 群 概 
念 。 簇 定义 为 至 少 包 含 最 小 数量 的 点 ， 簇 内 每 对 点 之 间 的 距离 必须 落 在 用 户 指 定 的 距离 (a@) 
之 内 ,或 者 由 簇 中 一 系列 的 点 连接 为 链 ， 位 于 链 中 的 每 个 点 和 下 一 个 点 的 距离 必须 落 在 
内 。s 值 越 小 ， 产 生 的 簇 越 密集 ， 因 为 实例 之 间 必 须 更 接近 才能 同属 于 一 个 簇 。 根 据 设置 
的 a 值 和 最 小 的 艇 大 小 ， 可 能 有 某 些 实例 不 属于 任何 徐 ， 可 将 这 些 实例 视 为 离 群 值 。 


2.4.3 ”手把手 教 你 用 

1. 使 用 SimpleKMeans 算法 

均值 算法 是 一 种 常用 的 聚 类 分 析 算 法 。 该 算法 接受 输入 值 :， 然 后 将 n 个 数据 对 象 划 
分 为 个 徐 ， 使 得 获得 的 簇 满足 如 下 条 件 ， 同一 簇 中 的 对 象 相似 度 较 高 ， 而 不 同 簇 中 的 对 
象 相似 度 较 小 。 

SimpleKMeans 算法 使 用 上 均值 算法 。 簇 的 数量 由 一 个 参数 指定 ， 用 户 可 以 选择 欧 氏 距 
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离 或 曼哈顿 距离 度量 。 如 果 使 用 后 者 ， 该 算法 实际 上 是 使 用 k-medians 替代 k-means， 并 且 
中 心 也 是 基于 中 位 数 而 不 是 均值 ， 以 尽量 使 徐 内 的 距离 函数 最 小 。 


下 面 对 天 气 数据 集 使 用 SimpleKMeans 算法 。 首 先 在 Preprocess 标签 页 中 加 载 


weather.numeric.arff 文件 ， 然 后 切换 至 Cluster 标签 页 ， 选 择 SimpleKMeans 算法 ， 保 持 默 
认 参 数 ， 即 2 个 簇 以 及 欧 氏 距离 。 单 击 Ignore attributes 按钮 ， 选 择 play 属性 为 忽略 属性 ， 
单 击 Select 按钮 确认 选择 。 单 击 Start 按钮 运行 聚 类 算法 ， 结 果 如 下 : 


=== Run information 一 一 


Scheme : weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 — 
Periodic-pruning 10000 -min-density 2.0 -tl -1.25 -t2 -1.0 -N 2 -A 
"weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -Ss 10 
Relation: weather 
Instances: 14 
Attributes: 5 

outlook 

temperature 

humidity 

windy 
Ignored: 

play 
Test mode: evaluate on training data 


=== Clustering model (full training set) —= 


kMeans 


Number of iterations: 3 
Within cluster sum of squared errors: 11.237456311387234 


Initial starting points (random): 


Cluster 0: rainy,75,80,FALSE 
Cluster 1: overcast, 64,65,TRUE 


Missing values globally replaced with mean/mode 


Final cluster centroids: 


Clustert# 
Attribute Full Data 0 1 
(14.0) (9.0) (5.0) 
outlook sunny sunny overcast 
temperature 73.5714 75.8889 69.4 
humidity 81.6429 84.1111 A 
windy FALSE FALSE TRUE 


Time taken to build model (full training data) : 0 seconds 


—= Model and evaluation on training set 一 一 


Clustered Instances 


0 9 ( 64%) 
1 5 ( 36%) 


可 以 看 到 ， 聚 类 结果 以 


表格 形式 显示 : 行 对 应 属性 名 ， 列 对 应 簇 中 心 。 在 开始 的 一 个 


额外 马 (Full Data) 显 示 整 个 数据 集 。 每 个 簇拥 有 的 实例 数量 显示 在 所 在 列 的 顶部 括号 内 。 每 


一 个 表 项 如 果 是 数值 型 属性 
属性 标签 。 用 户 可 以 选择 显 


， 则 显示 平均 值 ， 如 果 是 标 称 型 属性 ， 则 显示 簇 所 在 列 对 应 的 
示 数 值 型 属性 标准 差 和 标 称 型 属性 值 的 频率 计数 ， 只 要 在 通用 


对 象 编辑 器 中 将 displayStdDevs 参数 设置 为 tue 即 可 。 输 出 结果 底部 显示 应 用 所 学 聚 类 模 


型 的 结果 。 本 例 中 显示 了 分 


配给 每 个 簇 的 训练 实例 数目 及 百分比 ， 与 表格 中 每 一 列 顶部 括 


号 内 的 数字 相同 。 使 用 不 同 的 聚 类 模式 ， 显 示 输 出 会 有 所 不 同 。 


2. 使 用 EM 算法 


EM 算法 也 是 常用 的 聚 类 算法 。 下 面 使 用 EM 算法 对 相同 的 数据 集 进 行 聚 类 分 析 。 


在 Cluster 标签 页 中 单 


高 


fF Choose 按钮 选择 EM 聚 类 器 ， 单 击 Choose 按钮 右边 的 文本 


将 numClusters 设置 为 2， 即 复数 为 2， 其 他 参数 保持 默认 值 。 确 保 play 属性 为 忽略 属 


性 。 单 击 Start 按钮 启动 聚 类 训练 ， 得 到 结果 如 下 : 


=—= Run information 一 一 


Scheme : weka.clusterers.EM -I 100 -N 2 -xX 10 -max -1 -ll-cv 1.0E-6 -11- 
iter 1.0E-6 -M 1.0E-6 -K 10 -num-slots 1 -S 100 
Relation: Weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
Ignored: 
play 
Test mode: evaluate on training data 


=—= Clustering model 


EM 


(full training set) 一 一 
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Number of clusters: 2 
Number of iterations performed: 18 


Cluster 
Attribute 0 1 
(0.28) (0.72) 


outlook 

sunny 2.9551 4.0449 
overcast 2.9876 3.0124 
rainy 1.0009 5.9991 
[totall] 6.9437 13.0563 
temperature 

mean 82.2771 70.1574 
std. dev. 1.9212 3.6061 
humidity 

mean 83.9571 80.7353 


std. dev. 5.5038 11.043 


windy 

TRUE 1.9553 6.0447 
FALSE 3.9884 6.0116 
[totall] 5.9437 12.0563 


Time taken to build model (full training data) : 0.01 seconds 
=== Model and evaluation on training set 一 
Clustered Instances 


0 4 ( 29%) 
二 10 ( 71%) 


Log likelihood: -8.36599 


可 以 看 到 ， 不 同 于 SimpleKMeans 算法 的 输出 ， 在 表 头 的 每 个 簇 的 下 方 并 没有 显示 实 
例 数 量 ， 只 是 在 表 头 括号 内 显示 其 先 验 概率 。 表 中 单元 格 显示 数值 型 属性 正 态 分 布 的 参数 
或 标 称 型 属性 值 的 频率 计数 ， 这 里 ， 小 数 数值 揭示 了 由 EM 算法 产生 簇 的 “ 软 ” 特 性 ， 任 
何 实例 都 可 以 在 若干 个 簇 之 间 进行 分 割 。 输 出 的 最 后 显示 了 模型 的 对 数 似 然 值 ， 该 值 根据 
训练 数据 得 到 。 输 出 还 显示 了 分 配给 每 个 簇 的 实例 数量 ， 这 是 将 经 过 学 习 后 的 模型 作为 分 
类 器 应 用 到 数据 后 所 得 的 结果 。 

3. 使 用 DBSCAN 和 OPTICS 算法 


DBSCAN 和 OPTICS 都 是 聚 类 算法 。 
DBSCAN 使 用 欧 氏 距离 度量 ， 以 确定 哪些 实例 属于 同一 个 簇 。 但 是 ， 不 同 于 均值 算 
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法 ，DBSCAN 可 以 自动 确定 簇 的 数量 ， 发 现任 意 形状 的 簇 并 引入 离 群 值 的 概念 。 它 将 簇 定 
义 为 至 少 包 含有 最 小 数目 点 的 集合 ， 其 中 每 个 点 对 彼此 之 间 的 距离 小 于 用 户 指定 的 最 小 距 
离 (s:t Weka 中 为 epsilon)， 或 者 由 簇 内 的 一 系列 的 点 连接 为 链 ， 链 中 的 每 个 点 到 下 一 个 点 
的 距离 小 于 s。g 的 值 越 小 ， 产 生 的 簇 越 密集 ， 这 是 因为 实例 必须 靠 得 更 紧密 ， 彼 此 才能 同 
属于 一 个 徐 。 根据 设 定 的 s 值 和 簇 大 小 的 最 小 值 (Weka 中 为 minPoints)， 有 可 能 存在 某 些 不 
属于 任何 艇 的 实例 ， 这 些 实例 称 为 离 群 值 。 

OPTICS 算法 是 DBSCAN 算法 在 层次 聚 类 方面 的 扩展 。OPTICS 规定 了 实例 的 顺序 ， 
对 这 些 实例 进行 二 维 可 视 化 ， 可 以 揭示 簇 的 层次 结构 。 排 序 过 程 根据 距离 度量 ， 对 实例 排 
序 并 放 入 有 序列 表 中 。 此 外 ， 它 会 标记 每 个 相 邻 实例 对 的 “距离 可 达 性 ”， 这 是 指 允 许 一 
个 相 邻 实例 对 属于 同一 簇 的 最 小 e 值 。 当 根据 距离 可 达 性 顺序 绘 出 散 点 图 后 ， 能 明显 看 出 
簇 的 分 界 。 由 于 簇 内 实例 距离 最 近邻 居 的 可 达 性 很 低 ， 簇 可 视 化 为 山谷 形状 。 山 洛 越 深 ， 

下 面 演示 如 何 使 用 DBSCAN 和 OPTICS 算法 。 

首先 ， 在 Preprocess 标签 页 中 加 载 意 尾 花 数据 集 ， 然 后 切换 至 Cluster 标签 页 ， 单 击 
Choose 按钮 选择 DBSCAN 算法 。 


退 注意 : ”如 果 没 有 找到 DBSCAN 算法 ， 那 一 定 是 还 没有 添加 该 学 习 方案 ， 需 要 使 用 
包 管 理 器 进行 添加 。 由 于 DBSCAN 和 OPTICS 算法 的 关系 密切 ，Weka 将 这 
两 个 算法 合 为 一 个 包 ， 包 名 为 optics_dbScan， 最 新 版 本 为 1.0.5。 


单 击 Choose 按钮 右边 的 文本 框 ， 在 弹出 的 通用 对 象 编辑 器 中 将 epsilon 参数 设置 为 
0.2，minPoints 参数 设置 为 5。 然 后 ， 单 击 Ignore atrributes 按钮 ， 在 弹出 的 Select items 窗 
中 选择 class 属性 ， 忽 略 该 类 别 属 性 ， 单 击 Select 按钮 关闭 该 窗口 。 单 击 Start 按钮 启动 
聚 类 算法 ， 在 聚 类 器 输出 结果 中 可 以 看 到 ，DBSCAN 只 发 现 两 个 徐 ， 一 个 徐 有 49 个 实 
例 ， 另 一 个 艇 有 98 个 实例 ， 还 有 三 个 实例 未 能 聚 类 ， 如 图 2.80 所 示 。 


Time taken to build model (full training data) : 0.03 seconds 


=== Model and evaluation on training set = 一 
Clustered Instances 


0 49 ( 333) 
1 98 ( 674) 


Uncluarered instances : 3 
2.80 DBSCAN 输出 结果 


右 击 结 果 列 表 中 新 添加 的 条 目 ， 在 弹出 的 快捷 菜单 中 选择 Visualize cluster 
assignments( 可 视 化 得 分配 ) 菜 单项 ，Weka 将 弹出 可 视 化 结果 窗口 ， 该 可 视 化 界面 的 操作 可 
以 参见 2.7 节 的 说 明 。 图 2.81 所 示 的 是 横 轴 为 sepalwidth、 纵 轴 为 petalwidth 的 可 视 化 
结果 。 

从 图 中 可 以 看 到 ，DBSCAN 发 现 了 两 个 徐 ， 一 个 显示 为 蓝 色 的 簇 ( 位 于 图 中 右 下 方 ) 是 
Iris setosa， 另 一 个 簇 显示 为 红色 (位 于 图 中 左上 方 )， 由 Iris viginica 和 Iris versicolor 组 成 ， 
DBSCAN 并 没有 明确 区 别 这 两 者 。 三 个 判定 为 离 群 值 的 实例 在 散 点 图 中 显示 为 字符 M， 
左下 方 的 一 个 M 实际 应 该 为 Fis setosa， 右 上 方 的 两 个 M 实际 应 该 为 IFis versicolor， 但 在 以 
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花 莹 宽度 为 模 轴 ， 花 辩 宽 度 为 纵 轴 的 散 点 图 中 ， 这 些 离 群 值 的 确 与 两 个 徐 的 距离 都 有 些 远 。 
现在 ， 将 minPoints 参数 由 5 修改 为 2， 保持 其 他 参数 不 变 ， 重 新 运行 。 此 时 会 惊奇 地 
发 现 DBSCAN 已 经 发 现 了 三 个 徐 ， 散 点 图 右上 方 的 两 个 离 群 值 单 独 形成 了 第 三 个 徐 ， 
为 它们 相互 间 的 距离 小 于 设 定 的 s 值 ， 并 且 也 满足 艇 大 小 的 最 小 值 为 2 的 要 求 ， 如 图 2.82 
所 示 。 


图 2.81 聚 类 器 结果 可 视 化 图 2.82 重新 运行 的 结果 


现在 ， 对 交尾 花 数据 集 使 用 OPTICS 算法 。 选 择 OPTICS 聚 类 器 ， 打 开通 用 对 象 编辑 
器 ， 将 epsilon 参数 设置 为 0.2，minPoints 参数 设置 为 5。 单 击 Start 按钮 运行 聚 类 器 ， 
Weka 会 自动 弹出 OPTICS Visualizer 窗口 ， 窗 口中 部 包括 Table 和 Graph 两 个 标签 页 ， 前 
者 以 表格 形式 显示 聚 类 结果 ， 后 者 以 图 形 形 式 显示 聚 类 结果 ， 如 图 2.83 所 示 。 


图 2.83 _ OPTICS 可 视 化 输出 


从 图 中 可 以 看 到 ， 有 三 个 很 高 的 峰值 ， 中 间 夹 着 两 个 山谷 ， 对 应 OPTICS 找到 的 两 个 
秘 。 通 过 设置 距离 可 达 性 的 阔 值 ， 获 得 不 同 的 聚 类 ， 也 就 是 说 ， 在 图 中 某 个 给 定 的 可 达 性 
值 的 位 置 处 绘制 一 条 水 平 线 ， 该 水 平 线 与 峰值 相交 ， 两 侧 相 交点 形成 山谷 ， 这 就 是 根据 新 
闵 值 得 到 的 簇 。 


狂 注意 : ”Weka 提供 的 是 OPTICS 聚 类 算法 的 简单 实现 ， 不 要 将 它 作 为 运行 时 的 参考 
基准 ， 也 不 支持 对 新 实例 进行 聚 类 分 析 。 


2.5 关 联 


关联 规则 数据 挖掘 是 数据 挖掘 领域 的 热点 之 一 。 关 联 规则 反映 一 个 对 象 与 其 他 对 象 之 
间 的 相互 依赖 性 ， 如 果 多 个 对 象 之 间 存 在 一 定 的 关联 关系 ， 那 么 ， 其 中 一 个 对 象 就 能 够 通 
过 其 他 对 象 进行 预测 。 

关联 规则 的 典型 问题 是 分 析 超 市 中 的 购物 篮 数据 ， 通 过 分 析 顾 客 放 入 购物 篮 中 的 不 同 
商品 ， 发 现 商品 之 间 的 关系 ， 从 而 分 析 顾客 的 购买 习惯 。 另 一 些 典型 应 用 是 ， 从 海量 商业 
交易 记录 中 发 现 感 兴趣 的 数据 关联 ， 以 帮助 商家 决策 。 例 如 ， 商 品 分 类 设计 、 降 价 经 销 分 
析 、 货 架 摆 放 策略 等 。 

众所周知 的 沃尔玛 超市 故事 说 明了 发 现 关 联 规则 的 威力 ， 沃 尔 玛 是 将 数据 挖掘 结果 应 
用 到 商业 运作 并 取得 很 大 成 功 的 公司 之 一 。 沃 尔 玛 曾经 详细 分 析 了 数据 仓库 中 一 年 多 的 原 
始 交易 数据 ， 发 现 与 尿布 一 起 被 购买 最 多 的 商品 竟然 是 啤酒 。 借 助 于 关联 规则 ， 发 现 隐 茂 
在 背后 的 事实 是 : 30% 一 40% 的 年 轻 父亲 在 购买 尿布 时 会 顺便 买 一 点 爱 喝 的 啤酒 。 沃 尔 玛 
及 时 调整 了 货架 摆 放 位 置 ， 把 尿布 和 啤酒 放 在 一 起 销售 ， 从 而 大 大 增加 了 销量 。 

关联 规则 可 以 采用 与 分 类 规则 相同 的 方式 产生 。 由 于 得 到 的 关联 规则 数量 庞大 ， 通 常 
需要 根据 覆盖 率 (coverage) 和 准确 率 (accuracy) 进 行 修剪 。 履 盖 率 也 称 为 支持 度 (supporD， 支 
持 度 计数 是 应 用 规则 后 预测 正确 的 实例 数量 ， 支 持 度 是 支持 度 计数 与 实例 总 数 的 比值 。 准 
确 率 也 称 为 置信 度 (confidence)， 表 示 为 支持 度 计数 与 应 用 规则 的 实例 数量 的 比值 。 

由 于 仅 对 高 覆盖 量 的 关联 规则 感 兴趣 ， 因 此 关联 只 寻找 能 够 达到 预定 的 最 小 覆盖 量 的 
属性 值 对 组 合 ， 这 些 组 合 称 为 项 集 (itemseb， 其 中 的 任 一 个 属性 值 对 称 为 一 个 项 (item)。 套 
用 购物 篮 分 析 案 例 ， 项 就 是 购物 篮 中 的 商品 ， 需 要 寻找 的 是 购物 篮 中 商品 之 间 的 关联 。 


2.5.1 ”Associate 标签 页 的 操作 
Weka 专门 使 用 Associate( 关 联 ) 标 签 页 来 处 理 关 联 问 题 ， 如 图 2.84 所 示 。 
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2.84 ”Associate 标签 页 
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Associate 标签 页 中 包含 了 学 习 关联 规则 的 方案 。 从 布局 来 看 ， 关 联 规则 学 习 器 可 以 采 
与 聚 类 器 、 过 滤器 和 分 类 器 相同 的 方式 来 进行 选择 和 配置 ， 只 不 过 该 标签 页 更 为 简单 。 
Weka 关联 挖掘 的 一 般 步 骤 是 ， 选 择 合适 的 关联 规则 学 习 器 ， 并 为 关联 规则 学 习 器 设 
置 好 合适 的 参数 ， 然 后 单 击 Start 按钮 启动 学 习 器 ， 学 习 完 成 后 可 右 击 结果 列表 中 的 条 
目 ， 以 查看 或 保存 结果 。 


2.5.2 ”关联 算法 介绍 


关联 分 析 主 要 用 于 发 现 隐藏 在 大 型 数据 集中 的 有 意义 的 联系 ， 这 些 联系 可 以 采用 关联 
规则 或 频繁 项 集 的 形式 表示 。 关 联 分 析 可 用 于 购物 篮 数据 分 析 ， 还 可 用 于 医疗 诊断 、 网 页 
挖掘 和 科学 数据 分 析 等 领域 。 

关联 分 析 有 很 多 术语 ， 以 下 简单 介绍 这 些 术语 。 

(1) 购物 篮 事务 : 顾客 购物 数据 的 例子 如 表 2.9 所 示 ， 其 中 ，TID 是 事务 的 唯一 标识 ， 
项 集 是 给 定 顾客 购买 商品 的 集合 ， 二 者 合成 一 个 事务 。 


表 2.9 购物 篮 事务 示例 


TID 项 集 
{面包 牛奶 } 
{面包 尿布， 啤酒 ， 鸡 蛋 
牛奶 ， 尿 布 ， 啤 酒 ， 可 乐 
面包 ， 牛 奶 ， 尿 布 ， 啤 酒 
{ 面 包 ， 牛 奶 ， 尿 布 ， 可 乐 } 
(2) 二 元 表示 : 采用 表 2.10 所 示 的 二 元 形式 来 表示 购物 篮 数据 ， 每 行 对 应 一 个 事务 ， 
每 列 对 应 一 个 项 。 项 用 二 元 变量 表示 ， 这 种 表示 忽略 所 购 商 品 的 数量 和 价格 ， 仅 指示 购买 
商品 与 否 。 


wm | wm |- 


表 2.10 ”购物 篮 数据 的 二 元 表示 


TID 可 乐 
1 0 
2 0 
3 和 
4 0 
5 1 


(3) 项 集 : 设 了 = 色光 ,… 光 } 为 购物 篮 数据 中 全 部 项 的 集合 ， 了 = {, 石 ,…, 太 } 为 所 有 事 
务 的 集合 。 每 个 事务 右 包含 的 项 集 都 是 了 的 子 集 。 包 含 0 个 或 多 个 项 的 集合 称 为 项 集 。 特 
别 地 ， 包 含 万 个 项 的 项 集 称 为 万 项 集 ， 不 包括 任何 项 的 项 集 为 空 集 。 

(4) 支持 度 计 数 : 支持 度 计 数 是 指 包 括 特定 项 集 的 事务 个 数 。 如 果 项 集 8 是 事务 所 的 
子 集 ， 就 称 事务 右 包 括 项 集 5。 

(5) 关联 规则 (association rule): 关联 规则 是 形 如 ~ 了 的 蕴涵 表达 式 ， 其 中 , 对 和 了 是 


不 相交 的 项 集 ， 即 XY 了 Y=。 

(6) 支持 度 (support): 支持 度 确定 规则 可 以 用 于 给 定数 据 集 的 频繁 程度 ， 项 集 8 的 支持 
度 sup(S)=( 包 含 项 集 $ 的 事务 数量 /7 中 总 的 事务 数量 的 百分比 )x100%。 支 持 度 是 一 种 重要 
度量 ， 低 支持 度 的 规则 可 能 只 是 偶然 出 现 ， 因 此 支持 度 可 用 于 删除 无 意义 的 规则 。 

(7) 置信 度 (confidence): 置信 度 确定 了 在 包括 的 事务 中 出 现 的 频繁 程度 。 置 信 度 度 
量规 则 用 于 推理 的 可 靠 性 ， 置 信 度 越 高 ， 推 理 越 可 靠 。 

(8) 频繁 项 集 (frequent itemseb: 满足 最 小 支持 度 阔 值 的 所 有 项 集 ， 即 若 项 集 8 的 支持 
度 大 于 等 于 给 定 最 小 支持 度 ， 称 5 为 频繁 项 集 。 

(9) 强 规 则 (strong rule): 从 发 现 的 频繁 项 集中 提取 的 所 有 高 置信 度 的 规则 。 

1. Apriori 算法 

Apriori 算法 是 第 一 个 关联 规则 挖掘 算法 ， 它 开创 性 地 使 用 基于 支持 度 的 修剪 技术 ， 系 
统 地 控制 了 候选 项 集 的 指数 增长 。 

算法 2.9 给 出 Apriori 算法 产生 频繁 项 集 部 分 的 伪 代 码 。 设 Ci 为 候选 万 项 集 的 集合 ， 
Fi 为 频繁 大 项 集 的 集合 。 

算法 初始 通过 单 遍 扫描 数据 集 ， 确 定 每 个 项 的 支持 度 。 一 旦 完成 该 步 ， 就 得 到 所 有 频 
繁 1- 项 集 的 集合 Fi。 然 后， 算法 使 用 上 一 次 迭代 发 现 的 频繁 (k-1)- 项 集 ， 产 生 新 的 候选 所 
项 集 。 使 用 apriori-gen 函数 产生 候选 项 集 。 

为 了 对 候选 项 集 的 支持 度 计数 ， 算 法 再 次 扫描 一 遍 数 据 集 。 使 用 subset 函数 确定 包含 
在 每 一 个 事务 中 的 Ci 中 的 所 有 候选 项 集 。 

计算 候选 项 集 的 支持 度 计 数 之 后 ， 算 法 将 删除 支持 度 计 数 小 于 最 小 支持 度 阔 值 minsup) 
的 所 有 候选 项 集 。 

当 没 有 新 的 频繁 项 集 产生 ， 即 巨 = 名 时 ， 算 法 结束 。 


算法 2.9 Apriori 算法 的 频繁 项 集 产生 
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k=1 
五 ={ilieITAo( 信 三 Nxminsup)} ”// 发 现 所 有 的 频繁 1- 项 集 
repeat 
k=k+1 
Capriori-gen (Fi1) // 产生 候选 项 集 
for 每 个 事务 :eT do 
C, = subset(C,,7) // 识别 属于 的 所 有 候选 项 集 
for 每 个 候选 项 集 cs C, do 
ae)=a(c)+1 // 支持 度 计数 增 1 
end for 
end for 
F={clceC,Ao(c)F Nxminsup} // 提取 频繁 k- 项 集 
until f= 
Result = UF 


其 中 ，apriori-gen 函数 通过 候选 项 集 的 产生 和 修剪 两 个 操作 产生 候选 项 集 。 候 选项 集 
的 产生 由 前 一 次 迭代 发 现 的 频繁 (1-1)- 项 集 产 生 新 的 候选 大 项 集 ， 候 选项 集 的 修剪 采用 基 
于 支持 度 的 修剪 策略 ， 删 除 一 些 候选 大 项 集 。 
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Weka 提供 Apriori 算法 的 实现 类 。 算 法 和 迭代 减少 最 小 支持 ， 直 到 找到 满足 给 定 最 小 置 
信 度 的 所 需 数量 的 规则 。 
2. FP-Growth 算法 


FP-Growth 算法 采用 完全 不 同 的 方法 来 发 现 频繁 项 集 。 该 算法 不 同 于 Apriori 算法 的 
“产生 -测试 ” 范 型 ， 而 是 使 用 一 种 称 为 FP 树 的 紧凑 数据 结构 组 织 数据 ， 并 直接 从 该 结构 
中 提取 频繁 项 集 。 

FP 树 是 一 种 输入 数据 的 压缩 表示 ， 通 过 逐个 读 取 事务 ， 并 将 每 个 事务 映射 到 FP 树 中 
的 一 条 路 径 来 构造 。 由 于 不 同事 务 可 能 会 有 若干 个 相同 的 项 ， 因 此 它们 的 路 径 可 能 部 分 重 
县 。 路 径 相 互 重 释 越 多 ， 使 用 FP 树 结构 获得 的 压缩 效果 越 好 。 如 果 FP 树 足够 小 ， 能 够 存 
放 在 内 存 中 ， 就 可 以 直接 从 内 存 结构 中 提取 频繁 项 集 ， 而 不 必 重 复 扫描 存放 在 硬盘 上 的 数 
据 。 对 于 某 些 事务 数据 集 ，FP-Growth 算法 比 标准 Apriori 算法 要 快 几 个 数量 级 。 

FP-Growth 算法 分 两 个 过 程 ， 首 先 根据 原始 数据 构建 FP 树 ， 然 后 在 FP 树 上 挖掘 频繁 


模式 。 下 面 分 别 介 绍 。 
算法 2.10 FP 树 构建 算法 
设 数据 集 为 p， 最 小 支持 度 阔 值 为 minsup 
扫描 事务 数据 集 D， 得 到 频繁 1 -项 集 和 支持 度 。 对 刁 按 支持 度 降 序 排序 ， 得 到 频繁 项 表 工 
创建 一 个 FP 树 的 根 节点 ， 标 记 为 “nul1” 
再 次 扫描 数据 集 ， 对 D 中 的 每 条 事务 Trans 执行 如 下 操作 : 
提取 Trans 中 的 频繁 项 并 按 工 中 的 次 序 排序 。 令 排序 后 的 频繁 项 表 为 [p| P] ， 这 里 p 是 指 第 一 个 元 素 ， 而 P 
是 指 剩 下 的 元 素 组 成 的 列表 。 调 用 insert tree ( [pl| P] ，7) 。 该 过 程 执行 如 下 : 如 果 了 有 子 节点 使 得 
N.item name=p.item name， 则 六 的 计数 增 1， 否则 生成 一 个 新 节点 W， 将 计数 置 为 1， 链 接 到 它 的 父 节 
点 7， 并且 通过 节点 链 结构 将 其 链接 到 具有 相同 item_name 的 节点 上 。 如 果 P 为 非 空 ， 递 归 调用 


insert 1 tree (P, N) 。 


FP 树 构建 算法 需要 对 事务 数据 库 扫描 两 次 ， 最 后 将 数据 集 压 缩 成 一 棵 树 ， 树 中 包含 了 
频繁 模式 挖掘 的 全 部 信息 。 


算法 2.11 FP-Growth 算法 


FP-growth (Tree, Qo) 
工 初 值 为 空 
if Tree 包含 单条 路 径 P then 
for 路 径 P 中 节点 的 每 个 组 合 ( 记 作 B) do 
产生 模式 8 Ua ， 其 支持 度 设 为 B 中 节点 的 最 小 支持 度 
end for 
else // 包含 多 个 路 径 
for 在 Tree 的 头 表 中 的 每 个 频繁 项 oi do 
产生 模式 =a, vc ， 其 支持 度 support=ou。support 
构建 B 的 条 件 模式 基 ， 然 后 构建 B 的 条 件 FP 树 Treep 
if Treep*@ then 
调用 FP-growth (Trees，B) 
end if 
end for 
end if 


FP-Growth 算法 将 发 现 长 频繁 模式 的 问题 转化 为 递归 地 寻找 短 模式 ， 然 后 连接 后 组 的 


问题 。 它 将 最 不 频繁 的 项 作为 后 级 ， 极 易 选 取 。 该 方法 较 大 地 降低 了 搜索 开销 。 
Weka 提供 名 称 为 FPGrowth 的 FP-Growth 算法 的 实现 类 ， 算 法 寻找 大 的 项 集 而 不 产 和 
候选 项 集 ， 通 过 和 迭代 降低 最 小 的 支持 度 ， 直 到 找到 所 需 数 量 的 满足 给 定 最 小 度量 的 规则 。 


2.5.3 手把手 教 你 用 


1. Apriori 关联 规则 挖掘 


为 了 了 解 如 何 应 用 Apriori 算法 ， 加 载 weathernominalarff 文件 挖掘 规则 。 注 意 到 
Apriori 算法 希望 的 是 完全 的 标 称 型 数据 ， 如 果 有 数值 型 属性 ， 必 须 先进 行 离散 化 。 在 
Preprocess 标签 页 中 加 载 数据 后 ， 切 换 至 Associate 标签 页 ， 如 果 当 前 的 挖掘 算法 不 是 
Apriori， 则 选择 它 ， 使 用 默认 选项 。 然 后 单 击 Start 按钮 ， 启 动 Apriori 运行 ， 运 行 结 果 如 
图 2.85 所 示 。 
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图 2.85 ”Apriori 算法 运行 结果 


Apriori 算法 输出 的 10 条 规则 ， 按 照 每 一 条 规则 后 括号 内 的 置信 度 值 进行 排序 。 为 便 
于 研究 ， 将 10 条 规则 列 示 如 下 : 


1. outlook=overcast 4 一 > play=yes 4 <conf: (1)> 1ift: (1.56) lev: (0.1) [1] 
conv: (1.43) 

2. temperature=cool 4 ==> humidity=normal 4 <conf:(1)> lift:(2) lev: (0.14) 
[2] conv: (2) 

3. humidity=normal windy=FALSE 4 ==> play=yes 4 <conf:(1)> lift:(1.56) 
lev: (0.1) [1] conv: (1.43) 

4. outlook=sunny play=no 3 一 > humidity=high 3 <conf:(1)> lift: (2) 

lev: (0.11) [1] conv: (1.5) 

5. outlook=sunny humidity=high 3 一 > play=no 3 <conf:(1)> lift:(2.8) 

lev: (0.14) [1] conv: (1.93) 

6. outlook=rainy play=yes 3 一 > windy=FALSE 3 <conf:(1)> lift:(1.75) 

lev: (0.09) [1] conv: (1.29) 

7. outlook=rainy windy=FALSE 3 一 > play=yes 3 <eonf: (1)> LTitt: (1.56) 

lev: (0.08) [1] conv: (1.07) 

8. temperature=cool play=yes 3 一 > humidity=normal 3 <conf:(1)> lift: (2) 
lev: (0.11) [1 conv: (1.5) 

9. outlook=sunny temperature=hot 2 一 > humidity=high 2 <conf: (1)> 1ift: (2) 
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lev: (0.07) [1] conv: (1) 

10. temperature=hot play=no 2 一 > outlook=sunny 2 CONnE:s (L}> 1iEt: (2.8) 

lev: (0.09) [1] conv: (1.29) 

规则 采用 “前 件 num.1 一 > 结论 num.2” 的 形式 表示 ， 前 件 后 面 的 数字 表示 有 多 少 个 
实例 满足 前 件 ， 结 论 后 面 的 数字 表示 有 多 少 个 实例 满足 整个 规则 ， 这 就 是 规则 的 支持 度 。 
因为 在 所 有 的 10 个 规则 中 ， 这 两 个 数 相 等 ， 所 以 每 个 规则 的 置信 度 都 正好 是 1。 

在 实践 中 ， 要 找到 最 小 支持 度 和 置信 度 值 以 得 到 满意 的 结果 ， 可 能 非常 烦琐 。 因 此 ， 
Weka 的 Apriori 算法 需要 多 次 运行 基本 算法 。 它 始终 使 用 用 户 指定 的 同样 的 最 小 置信 度 
值 ， 该 值 由 minMetric 参数 设 定 。 支 持 度 可 以 表示 为 0 一 1 之 间 的 一 个 比值 ， 是 满足 整个 规 
则 的 实例 数 与 实例 总 数 (在 天 气 数据 中 其 值 为 14) 的 比例 。 最 低 支持 度 始 于 某 一 个 特定 值 (由 
upperBoundMinSupport 指定 ， 默 认 值 为 1.0)。 在 每 一 次 迭代 中 ， 支 持 度 减少 一 个 固定 的 量 
(由 delta 指定 ， 默 认 值 为 0.05， 即 5% 的 实例 )， 直 到 已 经 生成 一 定数 量 的 规则 (由 
numRules 指定 ， 默 认为 10 条 规则 )， 或 者 支持 度 达到 一 定 的 minimum 水 平 (由 
lowerBoundMinSupport 指定 ， 默 认 值 为 0.1)， 这 是 因为 ， 如 果 规 则 仅 适用 于 数据 集中 低 于 
10% 的 实例 ， 则 这 些 规则 一 般 也 没有 什么 意义 。 上 述 四 个 值 都 可 以 由 用 户 指 定 。 


这 听 起 来 很 复杂 ， 因 此 需要 研究 在 天 气 数 据 中 到 底 会 发 生 什么 情况 。Associator 
output( 关 联 规则 输出 ) 区 域 表 明 ， 该 算法 已 经 设法 产生 10 条 规则 。 算 法 的 最 小 置信 度 为 
0.9， 这 是 默认 值 ， 在 输出 中 已 经 显示 为 Minimum metric <confidence>: 0.9。 输 出 中 还 显示 
Number of cycles performed( 执 行 的 次 数 ) 为 17， 该 
值 表 明 Apriori 算法 实际 运行 17 次 以 产生 这 些 规 Eee 
则 。 输 出 中 还 显示 Minimum support( 最 小 支持 二 
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度 )， 所 生成 的 输出 值 为 0.15( 对 应 于 0.15x14~2 
实例 )。 

现在 打开 通用 对 象 编辑 器 ， 研 究 如 图 2.86 所 
示 的 Apriori 参数 。 

可 以 看 到 ， 最 低 的 支持 度 upperBound- 
MinSupport 参数 的 初始 值 默 认为 1.0，delta 参数 
值 为 0.05。 由 于 1-17x0.05 = 0.15， 这 就 解释 了 
为 什么 经 过 17 次 迭代 ， 最 小 支持 度 值 会 是 0.15。 
需要 注意 的 是 ， 在 Apriori 算法 第 一 次 运行 之 前 ， 
upperBoundMinSupport 参数 值 要 先 减少 delta。 

输出 区 域 还 显示 ， 尝 试 最 小 支持 度 的 最 后 一 
个 值 (本 例 为 0.15) 后 ， 发 现 了 多 少 个 频繁 项 集 。 
为 方便 起 见 ， 列 示 如 下 : 

Generated sets of large itemsets: 

Size of set of large itemsets L(1): 12 

Size of set of large itemsets L(2): 47 


Size of set of large itemsets L(3): 39 
Size of set of large itemsets L(4): 6 


可 以 看 到 ， 在 本 例 中 给 定 一 个 最 小 支持 度 计数 为 2 个 实例 时 ， 显 示 Minimum 


2.86 ”Apriori 参数 


support:0.15(2 instances)， 有 12 个 大 小 为 1 的 项 集 、47 个 大 小 为 2 的 项 集 、39 个 大 小 为 3 
的 项 集 、6 个 大 小 为 4 的 项 集 。 

现在 ， 设 置 outputItemSets 为 True， 再 次 运行 Apriori 算法 ， 会 显示 所 有 这 些 不 同 项 集 
和 支持 的 实例 数 ， 如 图 2.87 所 示 。 


2.87 设置 outputltemSets 为 True 后 的 运行 结果 


Apriori 算法 还 有 一 些 其 他 参数 。 如 果 将 significanceLevel 设置 为 0 一 1 之 间 的 一 个 值 ， 
关联 规则 将 根据 所 选择 的 显著 性 水 平 上 的 ?检验 进行 过 滤 。 然 而 ， 在 这 种 情形 下 施加 显著 
性 检验 是 有 问题 的 ， 因 为 存在 多 重 比较 问题 : 如 果 对 数 百 个 关联 规则 执行 数 百 次 测试 ， 可 
能 很 偶然 才 会 发 现 显著 的 影响 ， 也 就 是 说 ， 一 个 关联 似乎 有 统计 学 意义 ， 但 实际 上 不 是 。 
此 外 ， 好 检验 在 样本 量 小 的 情形 下 是 不 准确 的 。 

规则 排序 还 有 一 些 蔡 代 度量 。 除 Confidence( 置 信 度 ) 外 ，Apriori 算法 还 支持 Lift( 提 升 
度 )、Leverage( 杠 杆 率 )， 以 及 Conviction( 确 信 度 )， 可 以 在 metricType 下 拉 列 表 框 中 进行 选 
择 。 更 多 信息 可 通过 在 通用 对 象 编辑 器 中 单 击 More 按钮 获得 。 


2. 挖掘 现实 数据 集 

本 示例 挖掘 美国 国会 议员 投票 信息 ， 该 数据 集 的 详细 情况 可 参见 第 1 章 。 

该 数据 集 的 全 部 属性 都 是 二 元 标 称 型 ， 并 带 有 一 些 现实 数据 集 常见 的 缺失 值 ， 使 用 
“?” 来 表示 这 些 缺 失 值 。 要 意识 到 ， 数 据 集中 的 “?” 并 不 意味 着 该 属性 的 值 是 未 知 的 ， 
而 是 意味 着 ， 该 值 既 不 是 “yes” 也 不 是 “no”。 通 常 将 本 数据 集 视 为 一 个 分 类 问题 ， 任 务 
是 基于 投票 模式 预测 所 属 党 派 。 然 而 ， 本 示例 另辟蹊径 ， 在 数据 集中 应 用 关联 规则 挖掘 ， 
以 寻求 有 趣 的 关联 。 

在 Preprocess 标签 页 中 加 载 vote.arff 数据 集 ， 切 换 至 Associate 标签 页 ， 选 择 Apriori 
算法 ， 保 持 默认 选项 不 变 ， 单 击 Start 按钮 ， 运 行 结果 如 下 : 


Apriori 


Minimum support: 0.45 (196 instances) 
Minimum metric <confidence>: 0.9 
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Number of cycles performed: 11 


Generated sets of large itemsets: 

Size of set of large itemsets L(1): 20 
Size of set of large itemsets L(2): 17 
Size of set of large itemsets L(3): 6 
Size of set of large itemsets L(4): 1 


Best rules found: 


1. adoption-of-the-budget-resolution=y physician-fee-freeze=n 219 一 > 
Class=democrat 219 <conf: (1)> lift: (1.63) lev: (0.19) [84] conv: (84.58) 

2. adoption-of-the-budget-resolution=y physician-fee-freeze=n aid-to- 
nicaraguan-contras=y 198 ==> Class=democrat 198 <conf: (1)> 1ift: (1.63) 
lev: (0.18) [76] conv: (76.47) 

3. physician-fee-freeze=n aid-to-nicaraguan-contras=y 211 ==> Class=democrat 
210 <conf: (1)> lift: (1.62) lev: (0.19) [80] conv: (40.74) 

4. physician-fee-freeze=n education-spending=n 202 ==> Class=democrat 201 
<conf: (1)> 1ift:(1.62) lev: (0.18) [77] conv: (39.01) 

5. physician-fee-freeze=n 247 一 > Class=democrat 245 <conf: (0.99)> 
lift: (1.62) lev: (0.21) [93] conv: (31.8) 

6. el-salvador-aid=n Class=democrat 200 一 > aid-to-nicaraguan-contras=y 197 
<conf: (0.99)> 1ift: (1.77) lev: (0.2) [85] conv: (22.18) 

7. el-salvador-aid=n 208 一 > aid-to-nicaraguan-contras=y 204 <conf:(0.98)> 
lift: (1.76) lev:(0.2) [88] conv: (18.46) 

8. adoption-of-the-budget-resolution=y aid-to-nicaraguan-contras=y 
Class=democrat 203 一 > physician-fee-freeze=n 198 <conf:(0.98)> lift: (1.72) 
lev: (0.19) [82] conv: (14.62) 

9. el-salvador-aid=n aid-to-nicaraguan-contras=y 204 一 > Class=democrat 197 
<conf: (0.97)> 1ift: (1.57) lev: (0.17) [71] conv: (9.85) 

10. aid-to-nicaraguan-contras=y Class=democrat 218 一 > physician-fee-freeze=n 
210 <conf: (0.96)> 1ift: (1.7) lev: (0.2) [86] conv: (10.47 


首先 ， 输 出 中 列 出 最 小 支持 度 为 0.45(196 个 实例 )， 最 小 置信 度 为 0.9， 执 行 的 次 数 
为 11。 

然后 ， 研 究 Apriori 算法 发 现 的 10 条 规则 。 

第 一 条 规则 表明 ， 支 持 “采纳 预算 决议 ”， 并 反对 “冻结 医疗 费 ” 的 是 “民主 党 ”。 

第 二 条 规则 表明 ， 支 持 “ 采 纳 预 算 决议 ”， 反 对 “冻结 医疗 费 ”， 并 支持 “援助 尼 加 
拉 瓜 反 政府 ”的 是 “民主 党 ”。 

第 三 条 规则 表明 ， 反 对 “冻结 医疗 费 ”， 并 支持 “援助 尼加拉瓜 反 政 府 ” 的 是 “ 民 3 
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党 ”。 
第 四 条 规则 表明 ， 反 对 “冻结 医疗 费 ”， 并 反对 “教育 支出 ”的 是 “民主 党 ”。 
第 五 条 规则 表明 ， 反 对 “教育 支出 ”的 是 “民主 党 ”。 
第 六 条 规则 表明 ， 反 对 “了 EL- 萨尔瓦多 援助 ”， 并 且 类 别 为 “民主 党 ”的 ， 会 支持 
“援助 尼加拉瓜 反 政府 ”。 
第 七 条 规则 表明 ， 反 对 “EL- 萨 尔 瓦 多 援助 ”的 ， 会 支持 “援助 尼加拉瓜 反 政府 ”。 
第 八条 规则 表明 ， 支 持 “ 采 纳 预 算 决议 ”， 支 持 “ 援 助 尼加拉瓜 反 政府 ”， 并 且 类 别 


为 “民主 党 ”的 ， 会 反对 “冻结 医疗 费 ”。 

第 九条 规则 表明 ， 反 对 “EL- 萨 尔 瓦 多 援助 ”， 并 支持 “援助 尼加拉瓜 反 政 府 ” 的 是 
“民主 党 ”。 

第 十 条 规则 表明 ， 支 持 “ 援 助 尼加拉瓜 反 政府 ”， 并 且 类 别 为 “民主 党 ”的 ， 会 反对 
“冻结 医疗 费 ”。 

不 难 推断 出 : “民主 党 ”会 支持 “采纳 预算 决议 ”和 “援助 尼加拉瓜 反 政 府 ”， 反 对 
“冻结 医疗 费 ”“ 教 育 支出 ”和 “EL- 萨 尔 瓦 多 援助 ”。 

令 人 感到 意外 的 是 ， 全 部 的 十 条 关联 规则 中 ， 没 有 一 条 涉及 “Class=republican”( 类 别 
为 “共和 党 ”的 )， 这 是 为 什么 呢 ? 

也 许 从 数据 中 能 看 出 些 端倪 。 切 换 至 Preprocess 标签 页 ， 单 击 Visualize All 按钮 ， 
Weka 弹出 如 图 2.88 所 示 的 可 视 化 窗口 。 


2.88 ”数据 集 可 视 化 所 有 的 结果 


图 中 的 蓝 色 ( 深 色 ) 代 表 民 主 党 ， 红 色 ( 浅 色 ) 代 表 共 和 党 。 在 前 四 行 的 16 项 属性 中 ， 有 
多 项 属性 蓝 色 占据 绝对 的 统治 地 位 ， 基 本 上 全 是 蓝 色 柱 ， 而 红色 占据 统治 地 位 的 只 有 很 少 
几 个 属性 ， 又 因为 覆盖 率 低 而 不 具备 竞争 优势 ， 故 未 能 入 选 。 在 人 数 上 民主 党 占 优 (267 : 
168)， 加 上 有 明确 的 政治 观点 ， 因 此 前 十 条 关联 规则 都 打上 了 民主 党 的 烙印 。 

3. 市 场 购物 篮 分 析 

购物 篮 分 析 将 关联 技术 用 于 交易 过 程 ， 特 别 是 分 析 超 市 收银 数据 ， 找 出 那些 以 成 组 的 
形式 同时 出 现 的 商品 。 对 于 大 多 数 零售 商 来 说 ， 这 是 主要 的 用 于 数据 挖掘 的 销售 信息 来 
源 。 例 如 ， 自 动 分 析 收 银 数 据 后 发 现 : 买 啤酒 的 客户 同时 也 买 薯 片 ， 对 超市 管理 人 员 来 
说 ， 这 个 发 现 也 许 非 常 有 意义 。 另 一 个 沃尔玛 的 例子 是 ， 一 些 顾客 通常 星期 四 在 买 尿 片 的 
同时 还 买 啤 酒 。 这 似乎 令 人 惊讶 ， 但 如 果 仔 细 一 想 ， 年 轻 父 母 为 了 在 家 度 周末 而 采购 ， 这 
又 非常 容易 理解 。 上 述 信息 可 以 用 于 多 种 目的 ， 如 规划 货架 摆 放 位 置 、 仅 对 会 同时 购买 的 
商品 中 的 一 种 进行 打折 销售 、 提 供与 单独 销售 的 产品 相 匹配 产品 的 赠 券 ， 等 等 。 了 解 顾客 
的 个 人 购买 历史 记录 能 够 创造 出 巨大 的 附加 价值 。 商 家 可 以 从 顾客 的 购买 行为 中 鉴别 特殊 
客户 ， 不 但 可 以 分 析 其 历史 购买 模式 ， 而 且 还 能 精确 地 针对 潜在 用 户 提供 特殊 的 极 有 可 能 
感 兴趣 的 购买 信息 。 
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在 Weka 中 进行 市 场 购物 篮 分 析 ， 每 笔 交易 都 编码 为 一 个 实例 ， 其 中 的 每 个 属性 表示 
店 里 的 一 个 商品 项 ， 每 个 属性 都 只 有 一 个 值 ， 如 果 某 笔 特定 交易 不 包含 某 个 商品 项 (也 就 是 
说 ， 客 户 没有 购买 该 项 商品 )， 就 将 其 编码 为 缺失 值 。 

本 次 实验 的 任务 是 对 超市 收银 台 进 行 关联 数据 挖掘 。Weka 自 带 一 个 超市 购物 篮 分 析 
数据 集 ， 文 件 名 为 supermarketarff， 其 中 的 数据 是 从 新 西 兰 的 一 个 真实 超市 里 收集 而 得 。 
我 们 需要 在 真实 数据 中 寻找 一 些 有 趣 的 模式 。 

首先 ， 在 Weka 探索 者 界面 的 Preprocess 标签 页 中 ， 加 载 data 目录 下 的 
supermmarketarff 文件 。 在 Current relation 选项 组 中 ， 可 以 看 到 属性 数量 有 217 个 ， 而 实例 
数量 有 4627 个 ， 相 对 于 前 面 用 于 教学 的 例子 ， 这 个 数据 集 要 大 了 许多 。 单 击 Preprocess 标 
签 页 中 的 Edit 按钮 ， 打 开 数 据 集 的 Viewer 对 话 框 ， 查 看 数据 文件 ， 确 认 已 经 理解 了 数据 
的 结构 。 

然后 ， 切 换 至 Associate 标签 页 ， 选 择 Apriori 算法 ， 保 持 默认 选项 不 变 ， 单 击 Start 按 
钮 启动 Apriori 算法 ， 运 行 结果 如 下 : 


=—= Run information 一 


Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -0 1.0 -M 0.1 
-5 L060 == 

Relation: supermarket 

Instances: 4627 


Attributes: 217 
[list of attributes omitted] 
一 = Associator model (full training set) 一 一 


Apriori 


Minimum support: 0.15 (694 instances) 
Minimum metric <confidence>: 0.9 
Number of cycles performed: 17 


Generated sets of large itemsets: 

Size of set of large itemsets L(1): 44 
Size of set of large itemsets L(2): 380 
Size of set of large itemsets L(3): 910 
Size of set of large itemsets L(4): 633 
Size of set of large itemsets L(5): 105 
Size of set of large itemsets L(6): 1 


Best rules found: 


1. biscuits=t frozen foods=t fruit=t total=high 788 一 > bread and cake=t 723 
<conf: (0.92)> lift: (1.27) lev: (0.03) [155] conv: (3.35) 

2. baking needs=t biscuits=t fruit=t total=high 760 ==> bread and cake=t 696 
<conf: (0.92)> 1ift: (1.27) lev: (0.03) [149] conv: (3.28) 

3. baking needs=t frozen foods=t fruit=t total=high 770 一 > bread and cake=t 
705 <conf: (0.92)> lift: (1.27) lev: (0.03) [150] conv: (3.27) 

4. biscuits=t fruit=t vegetables=t total=high 815 一 > bread and cake=t 746 


<conf: (0.92)> lift: (1.27) lev: (0.03) [159] conv: (3.26) 

5. party snack foods=t fruit=t total=high 854 一 > bread and cake=t 779 

<conf: (0.91)> 1ift: (1.27) lev: (0.04) [164] conv: (3.15) 

6. biscuits=t frozen foods=t vegetables=t total=high 797 一 > bread and cake=t 
725 <conf: (0.91)> lift: (1.26) lev: (0.03) [151] conv: (3.06) 

7. baking needs=t biscuits=t vegetables=t total=high 772 一 > bread and cake=t 
701 <conf: (0.91)> 1ift: (1.26) lev: (0.03) [145] conv: (3.01) 

8. biscuits=t fruit=t total=high 954 一 > bread and cake=t 866 <conf:(0.91)> 
lift: (1.26) lev: (0.04) [179] conv: (3) 

9. frozen foods=t fruit=t vegetables=t total=high 834 一 > bread and cake=t 
757 <conf: (0.91)> lift: (1.26) lev: (0.03) [156] conv: (3) 

10. frozen foods=t fruit=t total=high 969 一 > bread and cake=t 877 

<conf: (0.91)> 1ift:(1.26) lev: (0.04) [179] conv: (2.92) 


分 析 一 下 得 到 的 十 条 最 佳 关 联 规则 ， 看 看 能 发 现 什么 。 

第 一 条 规则 : 饼干 + 冷冻 食品 + 水 果 + 高 总 额 一 > 面包 和 蛋糕。 

第 二 条 规则 : 烘 烤 所 需 + 饼干 + 水 果 + 高 总 额 一 > 面包 和 蛋糕 。 

第 三 条 规则 ， 烘 烤 所 需 + 冷 冻 食品 + 水 果 + 高 总 额 一 > 面包 和 蛋糕。 

第 四 条 规则 : 饼干 + 水 果 + 蔬 菜 + 高 总 额 一 > 面包 和 蛋糕 。 

第 五 条 规则 ， 聚 会 零食 + 水 果 + 高 总 额 一 > 面包 和 蛋糕。 

第 六 条 规则 :饼干 + 冷冻 食品 + 蔬菜 + 高 总 额 一 > 面包 和 和 蛋糕 。 

第 七 条 规则 ;， 烘 烤 所 需 + 饼 干 + 蔬菜 + 高 总 额 一 > 面包 和 和 蛋糕。 

第 八条 规则 :饼干 + 水 果 + 高 总 额 一 > 面包 和 蛋糕 。 

第 九条 规则 : 冷冻 食品 + 水 果 + 蔬 菜 + 高 总 额 一 > 面包 和 和 蛋糕 。 

第 十 条 规则 : 冷冻 食品 + 水 果 + 高 总 额 一 > 面包 和 蛋糕 。 

十 条 关联 规则 中 ， 多 项 商品 多 次 出 现 ， 而 且 总 金额 都 很 高 。 这 给 出 了 一 些 显而易见 的 
信息 : 第 一 ， 购 买 饼干 、 冷 冻 食 品 等 速 食 的 顾客 ， 会 顺便 采购 些 水 果 、 蔬 菜 ， 以 补充 身体 
所 需 的 维生素 ， 第 二 ， 购 买 饼干 、 冷 冻 食 品 以 及 水 果 、 蔬 菜 的 顾客 ， 会 顺便 购买 面包 和 和 蛋 
糕 ， 第 三 ， 购 买 上 述 食品 的 顾客 ， 一 次 的 采购 量 会 很 大 ， 总 金额 较 高 ， 第 四 ， 总 金额 较 高 
的 交易 ， 一 般 都 会 购买 面包 和 蛋糕 ， 等 等 。 

对 于 超市 经 理 来 说 ， 这 些 信 息 非 常 重要 ， 可 以 根据 挖掘 到 的 知识 重新 安排 货架 ， 重 新 
布局 超市 ， 提 供 快 速 付款 通道 以 及 安排 送 货 等 附加 服务 ， 以 期 提升 市 场 竞争 力 。 

请 读者 尝试 使 用 Apriori 算法 的 不 同 参数 ， 看 看 挖掘 效果 ， 能 否 得 到 一 些 意外 而 又 在 
情理 之 中 的 结论 。 


2.6 选择 属性 


选择 属性 就 是 通过 搜索 数据 中 所 有 可 能 的 属性 组 合 ， 以 找到 预测 效果 最 好 的 属性 子 
集 。 手 工 选择 属性 既 烦 琐 又 容易 出 错 ， 为 了 帮助 用 户 实 现 选 择 属性 自动 化 ，Weka 专门 提 
供 如 图 2.89 所 示 的 Select attributes 标签 页 。 要 自动 选择 属性 ， 必 须 设 立 两 个 对 象 : 属性 评 
估 器 和 搜索 方法 。 前 者 在 窗口 项 部 的 Attribute Evaluator 选项 组 中 设置 ， 后 者 在 Search 
Method 选项 组 中 设置 。 属 性 评估 器 确定 使 用 什么 方法 为 每 个 属性 子 集 分 配 一 个 评估 值 ， 搜 
索 方 法 决定 执行 什么 风格 的 搜索 。 
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2.89 Select attributes 标签 页 


计 


Weka 允许 用 户 分 别 选择 评估 器 和 搜索 方法 ， 如 果 用 户 选择 的 组 合 不 恰当 ， 就 会 产生 
一 个 错误 消息 ， 用 户 可 通过 日 志 查 看 错误 消息 。 


2.6.1 ”Select attributes 标签 页 的 操作 


在 Attribute Selection Mode( 属 性 选择 模式 ) 选 项 组 中 ， 有 以 下 两 个 选项 。 

(1) Use full training set( 使 用 完整 的 训练 集 ): 使 用 完整 的 训练 数据 集 ， 以 确定 属性 子 集 
的 评估 值 。 

(2) Cross-validation( 交 又 验 证 ): 由 交叉 验证 来 确定 属性 子 集 的 评估 值 。Folds( 折 数 ) 和 
Seed( 种 子 ) 选 项 分 别 设置 交叉 验证 的 折 数 和 打 乱 数据 时 使 用 的 随机 种 子 。 

与 Classify 标签 页 一 样 ，Select attributes 标签 页 中 有 一 个 下 拉 列 表 框 ， 用 于 设 定 把 哪个 属 
性 作为 类 别 属性 。 

单 击 Start 按钮 启动 选择 属性 过 程 ， 当 选择 过 程 结束 后 ， 会 将 结果 输出 到 Attribute 
selection output( 属 性 选择 输出 ) 区 域 ， 并 且 会 在 Result list( 结 果 列 表 ) 区 域 添加 一 个 条 目 。 右 
击 结果 列表 区 域 中 的 条 目 ， 弹 出 的 快捷 菜单 中 提供 几 个 菜单 项 。 前 三 个 菜单 项 ， 即 View 
in main window( 在 主 窗口 中 查看 )、View in separate window( 在 单独 的 窗口 中 查看 ) 和 Save 
result buffer( 保 存 结果 缓冲 区 ) 与 Classify 标签 页 中 对 应 的 功能 一 致 ， 不 再 重复 说 明 。 有 可 能 
会 有 Visualize reduced data( 减少 后 数据 的 可 视 化 ) 菜 单项 ， 如 果 使 用 了 
PrincipalComponents( 主 成 分 ) 等 属性 转换 器 ， 也 可 能 会 有 Visualize transformed data( 转 换 后 
的 数据 可 视 化 ) 菜 单项 。 通 过 选择 Save reduced data( 保 存 减 少 后 的 数据 ) 或 Save transformed 
data( 保 存 转换 后 的 数据 ) 菜 单项 ， 可 以 将 减少 或 转换 后 的 数据 保存 到 文件 中 。 

选择 属性 操作 除了 可 以 在 Select attributes 标签 页 中 完成 以 外 ， 还 可 以 在 Classify 标签 
页 中 使 用 AttributeSelectedClassifier 元 分 类 器 完成 ， 该 元 分 类 器 可 以 在 训练 和 测试 数据 
传递 给 分 类 器 前 ， 先 通过 选择 属性 来 减少 维度 。AttributeSelectedClassifier 元 分 类 器 的 详 
细 用 法 请 参见 后 文 。 下 一 个 替代 方式 是 过 滤器 ， 一 般 要 求 同 时 对 训练 数据 和 测试 数据 进 
行 减 少 或 转换 处 理 ， 最 好 在 命令 行 或 简单 命令 行 (Simple CLD 界面 中 使 用 
AttributeSelection 过 滤器 的 批 处 理 模式 (-b)， 这 是 一 种 有 监督 的 属性 过 滤器 。 批 处 理 模 式 多 


许 使 用 -r 和 -s 选项 指定 额外 的 输入 和 输出 文件 对 ， 而 构建 过 滤器 则 使 用 -i 和 -o 选项 指定 训 
练 数据 的 输入 和 输出 文件 对 。 
例如 : 


java weka.filters.supervised.attribute.AttributeSelection 
-E "weka.attributeSelection.CfsSubsetEval " 

-S "weka.attributeSelection.BestFirst -D1 -N 5" 

-b 

-i <inputl.arff> 

-0 <outputl .arff> 

-r <input2.arff> 

-S <output2.arff> 


络 注意 : ”以 上 命令 在 Windows 命令 行 下 需要 在 一 行内 写 完 。 


2.6.2 ”选择 属性 算法 介绍 


在 Select attributes 标签 页 中 可 以 指定 属性 评估 器 和 搜索 方法 。 选 择 属性 通常 搜索 属性 
子 集 空间 ， 评 估 每 一 个 空间 ， 这 可 以 通过 组 合 属性 子 集 评估 器 和 搜索 方法 得 以 实现 。 另 一 
种 快捷 但 准确 度 不 高 的 方法 是 评估 单个 属性 并 排序 ， 丢 弃 低 于 指定 截止 点 的 属性 ， 这 可 以 
通过 组 合 单个 属性 评估 器 和 属性 排名 的 方法 得 以 实现 。Weka 界面 支持 这 两 种 方法 ， 人 允许 
用 户 选取 属性 评估 器 和 搜索 方法 的 组 合 ， 如 果 用 户 选 择 了 一 个 不 恰当 的 组 合 ， 就 会 产生 一 
个 错误 消息 。 

1. 属性 子 集 评估 器 


属性 子 集 评估 器 选取 属性 的 一 个 子 集 ， 并 返回 一 个 指导 搜索 的 度量 数值 ， 这 些 评估 器 
可 以 像 其 他 Weka 对 象 一 样 配置 。 

CfsSubsetEval 评估 器 评估 每 个 属性 的 预测 能 力 及 其 相互 之 间 的 元 余 度 ， 倾 向 于 选择 与 
类 别 属性 相关 度 高 ， 但 相互 之 间 相 关 度 低 的 属性 。 选 项 迭代 添加 与 类 别 属性 相关 度 最 高 的 
属性 ， 只 要 子 集中 不 包含 与 当前 属性 相关 度 更 高 的 属性 。 评 估 器 将 缺失 值 视 为 单独 值 ， 也 
可 以 将 缺失 值 记 为 与 出 现 频率 成 正比 的 其 他 值 。 

WrapperSubsetEval 评估 器 是 包装 器 方法 ， 它 使 用 一 个 分 类 器 来 评估 属性 集 ， 它 对 每 一 
个 子 集 采 用 交叉 验证 来 估计 学 习 方 案 的 准确 性 。 


2. 单个 属性 评估 器 


单个 属性 评估 器 和 Ranker 搜索 方法 一 同 使 用 ，Ranker 产生 一 个 丢弃 若干 属性 后 得 到 
的 给 定数 目的 属性 排名 列表 。 

ReliefFAttributeEval 是 基于 实例 的 评估 器 ， 它 随机 抽取 实例 样本 ， 并 检查 具有 相同 和 
不 同类 别 的 邻近 实例 。 它 可 运行 在 离散 型 类 别 和 连续 型 类 别 的 数据 之 上 ， 参 数 包括 指定 抽 
样 实例 的 数量 、 要 检查 的 邻近 实例 的 数量 、 是 否 对 最 近邻 的 距离 加 权 ， 以 及 控制 权重 如 何 
根据 距离 衰减 的 指数 函数 。 

InfoGainAttributeEval 评估 器 通过 测量 类 别 对 应 的 属性 信息 增益 来 评估 属性 ， 它 首先 使 
用 基于 MDL( 最 小 描述 长 度 ) 的 离散 化 方法 (也 可 以 设置 为 二 元 化 处 理 ) 对 数值 型 属性 进行 离 
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散 化 。 GainRatioAttributeEval 评估 器 通过 测量 相应 类 别 的 增益 率 来 评估 属性 。 
SymmetricalUncertAttributeEval 评估 器 通过 测量 相应 类 别 对称 的 不 确定 性 来 评估 属性 。 以 上 
几 个 方法 都 可 将 缺失 值 作为 单独 值 处 理 ， 或 者 将 缺失 值 记 为 与 出 现 频 率 成 正比 的 其 他 值 。 
OneRAttributeEval 评估 器 使 用 简单 的 OneR 分 类 器 采用 的 准确 性 度量 ， 它 可 以 像 
OneR 分 类 器 那样 ， 使 用 训练 数据 进行 评估 ， 也 可 以 应 用 折 数 作为 参数 的 内 部 交叉 验证 。 
它 采 用 OneR 分 类 器 的 简单 离散 化 方法 : 将 最 小 桶 大 小 (minimumBucketSize) 作 为 参数 。 
不 同 于 其 他 的 单个 属性 评估 器 ，PrincipalComponents 评估 器 转换 属性 集 ， 新 属性 都 按 
照 其 特征 值 进行 排名 。 或 者 ， 通 过 选择 足够 的 占 方差 一 定 比例 (默认 为 95%) 的 特征 向 量 来 
选择 子 集 。 最 后 ， 减 少 后 的 数据 可 以 转换 回 原来 的 空间 。 


3. 搜索 方法 


搜索 方法 遍历 属性 空间 以 搜索 好 的 子 集 ， 通 过 所 选 的 属性 子 集 评估 器 来 衡量 其 质量 。 
每 个 搜索 方法 都 可 以 使 用 Weka 对 象 编辑 器 进行 配置 。 

BestFirst 搜索 方法 执行 带 回溯 的 贪 禁 疏 山 法 ， 用 户 可 以 指定 在 系统 回溯 之 前 ， 必 须 连 
续 遇 到 多 少 个 无 法 改善 的 节点 。 它 可 以 从 空 属性 集 开 始 向 前 搜索 ， 也 可 以 从 全 集 开 始 向 后 
搜索 ， 还 可 以 从 中 间 点 (通过 属性 索引 列表 指定 ) 开 始 双向 搜索 并 考虑 所 有 可 能 的 单个 属性 
的 增删 操作 。 为 提高 效率 ， 可 以 缓存 已 评估 的 子 集 ， 最 大 缓存 的 大 小 为 可 设置 的 参数 。 

GreedyStepwise 搜索 方法 贪 禁 搜索 属性 的 子 集 空间 。 像 BestFirst 搜索 方法 一 样 ， 它 可 
以 从 空 集 开 始 向 前 搜索 ， 也 可 以 从 全 集 开 始 向 后 搜索 。 但 不 像 BestFirst， 它 不 进行 回溯 ， 
只 要 添加 或 删除 剩余 的 最 佳 属性 导致 评估 指标 降低 ， 就 立即 终止 。 在 另 一 种 模式 下 ， 它 通 
过 从 空 到 满 (或 从 满 到 空 ) 遍 历 空 间 ， 并 记录 选择 属性 的 顺序 来 对 属性 排名 。 用 户 可 以 指定 
要 保留 的 属性 数量 ， 或 者 设置 一 个 闵 值 ， 丢 弃 所 有 低 于 该 值 的 属性 。 

最 后 ，Ranker 实际 上 不 是 搜索 属性 子 集 的 方法 ， 而 是 对 单个 属性 进行 排名 的 方法 。 通 
过 单个 属性 评估 对 属性 排序 ， 只 能 用 于 单个 属性 评估 器 ， 不 能 用 于 属性 子 集 评估 器 。 
Ranker 不 仅 能 对 属性 排名 ， 还 能 通过 删除 较 低 排 名 的 属性 来 完成 属性 选择 。 用 户 可 以 设置 
一 个 截止 阐 值 ， 丢 弃 低 于 该 值 的 所 有 属性 ， 或 者 指定 保留 多 少 属性 。 用 户 可 以 指定 某 些 不 
论 其 排名 情况 如 何 都 必须 保留 的 属性 。 


2.6.3 ”手把手 教 你 用 
1. 手工 选择 属性 


本 次 实践 的 任务 是 手工 选择 玻璃 数据 集 的 属性 集 ， 使 用 IBk 算法 和 交叉 验证 ， 探 究 哪 
个 属性 子 集 能 产生 最 佳 的 分 类 准确 率 。Weka 中 带 有 自动 属性 选择 功能 ， 后 文 将 进行 介 
绍 ， 但 是 ， 手 工 执行 本 操作 能 让 读者 直观 了 解 选择 属性 的 工作 原理 ， 更 有 启发 意义 。 

首先 ， 在 Weka 的 Preprocess 标签 页 中 加 载 glass.arff 文件 ， 可 以 观察 到 ， 如 果 不 计 最 
后 一 个 类 别 属性 ， 玻 璃 数据 集中 一 共有 九 个 属性 。 在 Attributes 选项 组 中 ， 通 过 选中 属性 
表格 里 属性 名 称 前 面 的 复 选 框 ， 选 择 欲 移 除 的 属性 ， 然 后 单 击 Remove 按钮 移 除 选中 的 属 
性 ， 使 用 剩 下 的 属性 子 集 进行 测试 。 当 然 ， 也 可 以 使 用 Remove 过 滤器 完成 同样 的 工作 。 

这 里 采用 逐步 消去 属性 的 方法 。 其 步骤 是 ， 首 先 分 别 从 完整 的 数据 集中 移 除 一 个 单个 
属性 ， 形 成 一 个 属性 子 集 ， 对 每 一 个 数据 子 集 版 本 运行 交叉 验证 ， 这 样 就 可 以 确定 最 佳 的 


八 个 属性 的 数据 集 ， 按照 这 种 方式 重复 ， 只 不 过 每 次 移 除 两 个 单个 属性 ， 在 减少 的 数据 集 
上 实施 交叉 验证 ， 可 以 找到 最 佳 的 七 个 属性 的 数据 集 ， 以 此 类 推 。 

测试 的 步骤 是 ， 在 Preprocess 标签 页 中 选择 好 数据 子 集 后 ， 切 换 至 Classify 标签 页 ， 
选择 IBk 分 类 器 和 十 折 交 叉 验 证 方案 ， 单 击 Start 按钮 启动 分 类 ， 记 录 正 确 分 类 的 百分比 ， 
Preprocess 标签 页 选择 下 一 轮 的 数据 子 集 ， 如 此 反复 ， 如 图 2.90 所 示 。 


然后 返回 


2.90 测试 结果 


将 每 次 的 测试 结果 填 入 表 2.11 中 。 该 表 的 第 一 行 数据 已 经 填 好 ， 请 读者 填写 其 余 的 数据 。 


表 2.11 使 用 IBk 对 不 同属 性 子 集 得 到 的 准确 率 


数据 子 集 大 小 (属性 数量 分 类 准确 率 
9 ， Mg, Al, Si, K, Ca, Ba, 70.5607% 
8 | 
7 | 
6 二 
5 | 
| 
= 二 
2 
1 0 
0 


为 了 方便 读者 对 照 ， 表 2.12 中 列 出 答案 。 从 表 中 难以 看 出 这 是 一 项 艰巨 的 工作 ， 一 共 
需要 完成 512 次 实验 ， 即 


CI+C+CI+CI +CI +CI +C +Cs +Cs +C9? 
=1+9+36+84+126+126+84+36+9+1 
=512 (次 ) 


如 果 每 分 钟 完成 一 个 实验 ， 也 需要 将 近 九 个 小 时 才能 完成 。 
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表 2.12 使 用 IBk 对 不 同属 性 子 集 得 到 的 准确 率 答案 


数据 子 集 大 小 (属性 数量 ) 分 类 准确 率 
9 四 9 » Al, Si, K, Ca, Ba, Fe 70.5607% 
8 s Al, Si, K, Ca, Ba 77.1028% 
5s Al K, Ca, Ba 77.5701% 
6 ， K, Ca, Ba 78.9720% 
5 79.4393% 
4 77.1028% 
3 73.8318% 
各 65.8879% 
1 52.3364% 
0 35.5140% 


从 表 2.12 中 可 以 看 到 ， 使 用 IBk 分 类 器 能 达到 的 最 高 分 类 准确 率 为 79.4393%， 只 需 
要 在 九 个 属性 中 选取 五 个 属性 就 足够 了 ， 更 多 的 属性 反而 会 降低 准确 率 ， 即 最 佳 的 属性 子 
集 得 到 的 分 类 准确 率 高 于 完整 数据 集 得 到 的 分 类 准确 率 。 请 读者 想 一 想 ， 这 是 为 什么 ? 

2. 自动 属性 选择 

在 大 多 数 有 监督 学 习 的 实际 应 用 中 ， 并 不 是 所 有 的 属性 在 预测 目标 方面 都 具有 同等 的 
重要 性 。 对 于 一 些 学 习 方案 ， 宛 余 或 不 相关 的 属性 可 能 导致 不 准确 的 模型 。 正 如 在 上 一 个 
实验 中 发 现 的 那样 ， 在 数据 集中 手工 选择 有 用 的 属性 是 非常 烦琐 而 乏味 的 ， 自 动 的 属性 选 
择 方 法 通常 更 快 更 好 。 

属性 选择 方法 可 以 分 为 过 滤器 和 包装 方法 。 前 者 应 用 低 计 算 开销 的 启发 式 方法 来 衡量 
属性 子 集 的 质量 ， 后 者 通过 构建 和 评估 实际 的 分 类 模型 来 衡量 属性 子 集 的 质量 ， 其 计算 开 
销 较 大 ， 但 往往 性 能 更 好 。 

探索 者 界面 中 的 Select attributes 标签 页 将 属性 选择 方法 应 用 到 数据 集 ， 默 认 使 用 
CfsSubsetEval 评估 器 来 评估 属性 子 集 。 另 一 种 方法 是 使 用 InfoGainAttributeEval 等 评估 
器 ， 评 估 单 个 属性 ， 然 后 通过 使 用 一 种 特殊 的 “搜索 ”方法 ( 即 Ranker)， 对 这 些 属性 进行 
排名 。 

下 面 首先 使 用 InfoGainAttributeEval 评估 器 和 Ranker 搜索 方法 对 属性 进行 排名 ,具体 
步骤 如 下 。 

首先 加 载 劳 工 数据 集 ， 即 laborarff 文件 ， 然 后 切换 至 Select attributes 标签 页 。 在 
Attribute Evaluator 选项 组 中 ， 单 击 Choose 按钮 ， 选 择 InfoGainAttributeEval， 这 时 会 弹出 如 
图 2.91 所 示 的 警告 对 话 框 ， 询 问 是 否 需 要 选择 Ranker 搜索 方法 ， 单 击 “ 是 ”按钮 确认 。 


图 2.91 警告 对 话 杠 


单 击 Start 按钮 启动 自动 属性 选择 评估 及 搜索 算法 ， 图 2.92 中 显示 了 运行 结果 。 


2.92 InfoGainAttributeEval 运行 结果 


从 运行 结果 中 可 以 看 到 ， 属 性 选择 输出 中 已 经 按照 各 个 属性 在 预测 目标 方面 的 重要 程 
度 进行 了 排序 ， 用 户 可 按照 排名 后 的 重要 程度 选取 一 定 的 属性 子 集 。 

与 上 述 使 用 InfoGainAttributeEval 评估 器 的 信息 增益 方法 不 同 ，CfsSubsetEval 评估 器 
的 目标 是 确定 一 个 属性 子 集 ， 它 与 目标 属性 相关 性 强 ， 同 时 相互 之 间 又 没有 强 相 关 性 。 默 
认 情 况 下 ， 它 使 用 BestFirst 搜索 方法 ， 但 也 可 以 选择 其 他 方法 ， 搜 索 可 能 的 属性 子 集 空间 
中 “最 好 ”的 那 一 个 。 实 际 应 用 时 可 选择 GreedyStepwise， 并 设置 searchBackwards( 向 后 搜 
索 ) 参 数 为 True。 

还 是 使 用 劳工 数据 集 ， 在 Select attributes 标签 页 的 Attribute Evaluator 选项 组 中 选择 
CfsSubsetEval ， 这 时 会 弹出 如 图 2.93 所 示 的 警告 对 话 框 ， 询 问 是 否 需 要 选择 
GreedyStepwise 搜索 方法 ， 单 击 “ 是 ”按钮 确认 。 


图 2.93 ”警告 对 话 框 


在 Search Method 选项 组 中 单 击 Choose 按钮 旁边 的 文本 框 ， 在 弹出 的 通用 对 象 编辑 器 
中 将 searchBackwards 参数 设置 为 True， 再 关闭 通用 对 象 编辑 器 ， 然 后 单 击 Start 按钮 启动 
自动 属性 选择 评估 及 搜索 算法 ， 图 2.94 中 显示 了 运行 结果 。 

从 运行 结果 中 可 以 看 到 ， 最 佳 的 属性 子 集 已 经 选择 出 来 了 ， 共 有 七 个 属性 ， 还 显示 出 
所 选择 的 属性 索引 和 属性 名 称 。 读 者 可 以 将 搜索 方法 由 GreedyStepwise 改 为 BestFirst， 对 
于 本 例 来 说 ， 运 行 结果 是 一 样 的 ， 都 选取 第 2、3、5、11、12、13、14 共 七 个 属性 。 

如 果 要 使 用 包装 方法 ， 而 不 使 用 如 同 CfsSubsetEval 那样 的 过 滤器 方法 ， 那 么 ， 首 先 要 
选择 WrapperSubsetEval 评估 器 ， 然 后 选择 学 习 算法 ， 设 置 评估 属性 子 集 所 使 用 的 交叉 验 
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图 2.94 ”CfsSubsetEval 运行 结果 
使 用 包装 方法 处 理 劳工 数据 集 的 步骤 是 ， 选 择 WrapperSubsetEval 评估 器 ， 设 置 基 学 
习 器 classifier 选项 为 48， 设 置 使 用 BestFirst 搜索 方法 ， 单 击 Start 按钮 启动 自动 属性 选择 
评估 及 搜索 算法 ， 图 2.95 中 显示 了 运行 结果 。 
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2.95 ”WrapperSubsetEval 运行 结果 


现在 检查 图 2.94 和 图 2.95 的 最 佳 属性 子 集 结果 ， 前 者 输出 第 2、3、5、11、12、13、 
14 共 七 个 属性 ， 后 者 输出 1、2、4、6、11、12 共 六 个 属性 ， 两 种 方法 都 选择 出 来 的 属性 
为 2、11、12。 对 照 图 2.95 的 输出 结果 ， 两 者 都 选择 出 来 的 属性 分 别 位 于 信息 增益 输出 的 
第 二 位 、 第 三 位 、 第 六 位 ， 排 名 靠 前 。 这 说 明 尽管 三 种 方法 得 出 的 结论 不 同 ， 但 有 的 属性 
由 于 与 类 别 属 性 的 相关 性 强 ， 因 此 会 被 很 多 算法 都 选中 。 

最 后 ， 研 究 一 下 到 底 后 两 种 方法 哪 种 更 符合 实际 。 使 用 J48 分 类 器 、 十 折 交 叉 验 证 ， 


y 
© 


比较 CfsSubsetEval 和 WrapperSubsetEval 两 种 算法 选 出 来 的 属性 子 集 对 分 类 准确 度 的 影 
响 ， 如 表 2.13 所 示 。 


表 2.13 不 同 自动 属性 选择 的 实际 性 能 比较 


分 类 算法 评估 策略 分 类 准确 度 
| 全 集 十 折 交 叉 验 证 73.6842% 
光 | 2 35.5 Ils 2 123: 法 十 折 交 叉 验 证 | 77.1930% 


es 十 折 交 叉 验 证 80.7018% 


表 2.13 的 第 一 行为 参照 数据 ， 没 有 进行 属性 选择 。 由 结果 可 以 大 致 可 靠 地 得 出 如 下 结论 。 

第 一 ， 经 过 属性 选择 后 ， 分 类 准确 度 得 到 提高 。 

第 二 ， 对 于 本 例 ， 相 对 于 CfsSubsetEval 算法 选 出 来 的 七 个 属性 ，WrapperSubsetEval 
算法 只 选 出 来 六 个 属性 ， 属 性 子 集 更 小 ， 但 效果 更 好 。 


3. 深入 研究 自动 属性 选择 

Select attributes 标签 页 能 让 用 户 通过 属性 选择 方法 ， 深 入 了 解数 据 集 。 然 而 ， 如 果 将 
属性 选择 与 有 监督 的 离散 化 过 滤 方 法 一 道 使 用 ， 且 将 减少 后 的 数据 集 的 一 部 分 用 于 模型 测 
试 (如 交叉 验证 )， 就 会 带 来 一 些 问 题 。 其 原因 是 ， 在 选择 属性 时 就 已 经 看 到 了 在 测试 数据 
中 要 使 用 的 类 别 标签 ， 使 用 测试 数据 信息 影响 了 模型 的 构建 ， 导 致 有 偏 傈 的 准确 性 估计 。 

要 避免 上 述 问题 ， 可 以 将 数据 分 为 训练 集 和 测试 集 ， 属 性 选择 只 针对 训练 集 。 然 而 ， 
通常 更 方便 的 方法 是 使 用 AttributeSelectedClassifer 分 类 器 ， 这 是 Weka 的 一 种 元 学 习 器 ， 
它 允 许 指定 属性 选择 方法 和 学 习 算法 作为 分 类 方案 的 一 部 分 。 该 分 类 器 确保 仅 基于 训练 数 
据 来 选择 属性 子 集 。 

现在 将 该 分 类 器 与 NaiveBayes 方法 一 起 使 用 ， 测 试 InfoGainAttributeEval 、 
CfsSubsetEval 和 WrapperSubsetEval 三 种 属性 选择 方法 。NaiveBayes 假定 属性 相互 独立 ， 
因此 属性 选择 非常 有 帮助 。 这 里 使 用 weka.filters.unsupervised.attribute.Copy 过 滤器 ， 添 加 
多 个 复制 后 的 属性 ， 由 于 每 个 副本 都 明显 与 原来 的 数据 完全 相关 ， 读 者 可 以 看 到 所 形成 的 宛 
余 属 性 的 效果 。 有 具体 操作 步骤 如 下 。 

首先 在 Preprocess 标签 页 中 加 载 意 尾 花 数据 集 ， 然 后 添加 无 监督 的 属性 过 滤器 Copy， 
将 attributeIndices 选项 设置 为 “1-4”， 即 复制 第 1 一 4 个 属性 ， 如 图 2.96 所 示 。 然 后 ， 应 
用 该 过 滤器 ， 可 以 看 到 数据 集中 已 经 多 出 了 四 个 属性 ， 连 上 类 别 属 性 一 共有 九 个 属性 。 

下 一 步 ， 切 换 至 Classify 标签 页 。 这 时 ， 应 该 注意 一 个 问题 ， 由 于 复制 后 的 属性 都 是 
在 尾部 添加 ， 因 此 原来 的 类 别 属性 就 变 成 不 是 默认 的 最 末 一 个 属性 ， 一 定 要 记得 在 Start 按 
钮 上 方 的 下 拉 列 表 框 中 选择 正确 的 类 别 属性 ， 这 里 是 (Nom) class。 然 后 ， 选 择 
AttributeSelectedClassifer 分 类 器 ， 编 辑 该 分 类 器 的 选项 ， 将 基 分 类 器 classifier 选项 设置 为 
NaiveBayes， 将 基 分 类 器 的 useSupervisedDiscretization 选项 设置 为 True， 该 选项 的 功能 是 
使 用 有 监督 的 离散 化 将 数值 型 属性 转换 为 标 称 型 属性 ; 将 evaluator 选项 设置 为 
InfoGainAttributeEval; 将 search 选项 设置 为 Ranker， 将 Ranker 算法 的 numToSelect 选项 
设置 为 3， 以 指定 排名 属性 的 数目 。 完 成 以 后 的 通用 对 象 编辑 器 对 话 框 如 图 2.97 所 示 。 
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2.96 设置 Copy 过 滤器 选项 2.97 设置 分 类 器 选项 


关闭 对 话 框 ， 使 用 十 折 交 叉 验证 测试 策略 ， 单 击 Start 按钮 运行 元 分 类 器 ， 将 运行 结果 


填 入 表 2.14 中 。 


按照 同样 的 方法 ， 分 别 使 用 CfsSubsetEval 和 WrapperSubsetEval 评估 器 ， 并 在 


WrapperSubsetEval 评估 器 内 部 指定 NaiveBayes -D 作为 基 分 类 器 ， 因 为 它 正 是 选择 属性 子 
集 的 分 类 器 。 将 运行 结果 填 入 表 2.14 中 。 


表 2.14 AttributeSelectedClassifer 元 分 类 器 不 同 评估 器 的 效果 


基 分 类 器 及 参数 分 类 准确 度 
petallength，Copy 

NaiveBayes -D InfoGainAttributeEval of petallength, 93.3333% 
Copy of petalwidth 


petallength, 
NaiveBayes -D CfsSubsetEval petalwidth, Copy 94% 
of petalwidth 


NaiveBaves -D WrapperSubsetEval 94% 


可 见 ， 第 一 种 和 第 二 种 自动 属性 选择 算法 并 没有 将 元 余 的 属性 分 开 ， 属 性 子 集中 都 多 


出 了 一 个 复制 (Copy ob 属性 。 而 第 三 种 自动 属性 选择 算法 所 选择 的 属性 子 集 只 含有 一 个 属 
性 ， 丢 弃 了 大 部 分 数据 ， 但 分 类 效果 仍然 是 最 好 之 一 。 


4. 自动 参数 调节 
许多 学 习 算法 的 参数 可 以 影响 学 习 的 结果 。 例 如 ， 决 策 树 学 习 器 C4.5 有 两 个 参数 影响 


修剪 的 量 ， 一 个 是 叶 节 点 中 所 需 实例 的 最 小 数量 (minNumObj)， 另 一 个 是 用 于 修剪 的 置信 
系数 (confidenceFactor)。 太 最 近邻 分 类 器 IBk 有 一 个 参数 (KNN) 用 于 设置 邻居 的 大 小 。 手 动 
调整 参数 设置 很 烦琐 ， 就 像 手 动 选择 属性 一 样 ， 并 且 也 有 同样 的 问题 : 在 选择 参数 时 ， 一 
定 不 要 使 用 测试 数据 ， 和 否则， 性 能 估计 会 有 所 偏 倚 。 


Weka 提供 元 学 习 器 CVParameterSelection， 通 过 优化 训练 数据 交叉 验证 的 准确 性 ， 搜 
索 以 获得 最 佳 的 参数 设置 。 默 认 情 况 下 ， 每 个 设置 使 用 十 折 交 叉 验 证 进行 评估 。 使 用 


CVParameters 参数 ， 在 通用 对 象 编辑 器 中 指定 要 优化 的 参数 。 对 于 每 个 参数 ， 必 须 提 供 三 
类 信息 : 四 一 个 字符 串 ， 使 用 字母 代码 进行 命名 (在 Javadoc 中 可 以 找到 分 类 器 的 相应 参 
数 ); 加 进行 评估 数值 的 范围 ，@ 在 该 范围 内 尝试 的 步 数 ， 为 一 个 数字 。 例 如 ， 从 1 一 10 增 
量 为 1， 搜 寻 参 数 -P 可 写 为 “P11010”。 

下 面 使 用 具体 示例 予以 说 明 。 使 用 CVParameterSelection 元 分 类 器 ， 自 动 选择 IBk 的 
邻居 大 小 的 最 优 值 ， 范 围 从 1 一 10 分 10 步 。 

首先 加 载 diabetes.arff 文件 ， 在 Classify 标签 页 中 选择 CVParameterSelection 元 分 类 
器 ， 单 击 Choose 按钮 后 面 的 文本 框 ， 弹 出 通用 对 象 编辑 器 对 话 框 。 在 该 对 话 框 中 单 击 
Choose 按钮 ， 选 择 IBk 作为 基 分 类 器 。 然 后 ， 单 击 CVParameters 文本 框 ， 会 弹出 一 个 通 
用 数组 编辑 器 对 话 框 。 在 该 对 话 框 项 部 的 文本 编辑 框 中 输入 “K 1 10 10”， 分 别 代 表 KNN 
字母 代码 、1 一 10 范围 、10 步 ， 单 击 Add 按钮 添加 ， 如 图 2.98 所 示 。 如 果 还 需要 评估 其 
他 参数 ， 可 以 重复 输入 ， 输 入 完毕 后 关闭 该 对 话 框 。 


轩 注意 :在 单 击 Add 按钮 后 ，Weka 会 自动 在 数值 参数 后 添加 “0” 。 
完成 设置 后 ， 单 击 Start 按钮 启动 评估 ， 运 行 结果 如 图 2.99 所 示 。 


图 2.98 通用 数组 编辑 器 对 话 杠 图 2.99 ”运行 结果 


从 运行 结果 中 可 以 看 到 ， 当 K 值 为 7 时 ，IBk 的 分 类 准确 度 最 高 ， 为 73.9583%。 读 者 
可 自行 使 用 IBk 的 默认 参数 进行 交叉 验证 ， 其 分 类 准确 度 仅 为 70.1823%。 

现在 整定 J48 的 参数 。 仍 然 使 用 上 述 数 据 与 配置 ， 只 是 将 基 分 类 器 由 IBk 换 成 J48。 
如 果 CVParameters 字段 有 一 个 以 上 的 参数 ，CVParameterSelection 会 同时 对 多 个 参数 执行 
网 格 搜索 。 修 前 置信 参数 的 字母 代码 是 C， 评 估 取 值 为 从 0.1 一 0.5 的 5 个 步骤 。 叶 节点 中 
所 需 实例 的 最 小 数量 参数 的 字母 代码 是 M， 评 估 取 值 为 从 1 到 10 的 10 个 步骤 。 因 此 需要 
在 CVParameters 参数 中 分 别 加 入 “C 0.1 0.5 5” 和 “M 1 10 10” 两 个 需要 评估 的 参数 ， 然 
后 单 击 Start 按钮 启动 评估 ， 运 行 结果 如 图 2.100 所 示 。 

从 运行 结果 中 可 以 看 到 ， 整 定 后 的 参数 为 “-M 10 -C 0.2”， 分 类 准确 度 为 74.349%， 
决策 树 的 叶 节 点 数 为 15， 树 大 小 为 29。 可 以 和 使 用 默认 参数 的 J48 做 一 个 对 比 ， 默 认 参 数 
为 “-C 0.25 -M 2”， 其 分 类 准确 度 为 73.8281%， 决 策 树 的 叶 节 点 数 为 20， 树 大 小 为 39。 
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图 2.100 ”J48 运行 结果 
综 上 所 述 ， 可 以 得 出 结论 : 优化 参数 后 ， 对 分 类 器 的 性 能 提升 很 大 。 


27 可 视 化 


可 视 化 是 指 以 图 形 或 表格 的 形式 展示 信息 ， 一 般 需 要 将 数据 包含 的 信息 转换 为 可 视 的 
形式 ， 以 分 析 或 总 结 数据 的 特征 以 及 属性 之 间 的 关系 。 由 于 人 类 能 够 快速 理解 大 量 的 可 视 
化 信息 ， 发 现 其 中 的 模式 ， 因 而 分 析 可 视 化 十 分 重要 。 另 外 ， 以 直观 的 可 视 化 方式 提供 结 
果 ， 便 于 领域 专家 排除 无 意义 的 模式 ， 从 而 发 现 重要 的 模式 。 

处 理 多 属性 的 最 常用 方法 是 构造 双 属 性 的 散 点 图 ， 以 显示 两 个 属性 值 之 间 的 关系 ， 便 
于 用 户 观察 ，Weka 为 用 户 提供 了 这 个 方便 。2.7.1 节 中 将 介绍 Visualize( 可 视 化 ) 标 签 页 的 
操作 。 

Weka GUI 选择 器 窗口 中 提供 了 单独 的 可 视 化 工具 ， 如 第 1 章 介绍 过 的 Plot、ROC、 
TreeVisualizer、GraphVisualizer 和 BoundaryVisualizer。2.7.2 节 中 将 介绍 边界 可 视 化 工具 ， 
该 工具 在 二 维 空间 中 可 视 化 分 类 器 的 决策 边界 ， 可 以 直观 了 解 分 类 器 的 工作 原理 。 

分 类 器 评估 通常 考虑 的 是 优化 分 类 准确 率 ， 假 设 所 有 的 错误 分 类 的 代价 (cosb 都 相同 。 
然而 在 真实 世界 的 问题 中 ， 错 分 某 个 类 别 的 代价 往往 会 比 错 分 另 一 个 类 别 的 代价 更 高 ， 这 
就 是 代价 敏感 分 类 。2.7.3 节 中 将 介绍 Weka 的 代价 /收益 分 析 可 视 化 工具 。 


2.7.1 Visualize 标签 页 


Weka 探索 者 界面 中 的 Visualize 标签 页 可 以 帮助 用 户 可 视 化 数据 集 。 要 注意 到 这 里 的 
可 视 化 对 象 并 非 分 类 或 聚 类 模型 的 结果 ， 而 是 数据 集 本 身 。 它 显示 一 个 二 维 散 点 图 矩阵 ， 
每 个 单元 格 对 应 一 对 属性 。 二 维 散 点 图 矩阵 有 两 个 主要 的 用 途 : 第 一 ， 可 以 直观 地 以 图 形 
方式 显示 两 个 属性 之 间 的 关系 ; 第 二 ， 当 给 定 类 别 标签 后 ， 可 以 用 它 来 观察 两 个 属性 将 不 
同类 别 的 实例 分 离 的 程度 。 如 果 能 用 一 条 直线 或 曲线 将 两 个 属性 定义 的 平面 分 成 一 些 区 
域 ， 每 个 区 域 包含 一 个 类 别 的 大 部 分 对 象 ， 则 可 以 基于 给 定 的 两 个 属性 构建 精确 的 分 类 
器 ; 否则 ， 只 能 用 更 多 的 属性 或 更 复杂 的 方法 构建 分 类 器 。 


2.101 中 显示 了 iris 数据 集 。 用 户 可 以 选择 一 个 属性 (通常 是 类 别 属性 ) 对 数据 点 着 
色 ， 单 击 窗 口 底 部 Class Colour 选项 组 中 的 类 别 属性 名 称 ， 就 会 弹出 Select New Color( 选 择 
新 颜色 ) 对 话 框 ， 选 择 一 种 颜色 即 可 。 如 果 类 别 属性 是 标 称 型 ， 显 示 离 散 的 着 色 ( 图 2.101 中 
显示 了 三 种 类 别 的 不 同 颜色 ); 如果 是 数值 型 ， 显 示 彩 色 条 ， 根 据 连 续 值 从 低 到 高 ， 对 应 的 
颜色 从 蓝 色 变 到 橙色 。 没 有 类 别 取 值 的 数据 点 显示 为 黑色 。 
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2.101 ”可视化 iris 数据 集 


PlotSize( 图 大 小 ) 滑 块 和 PointSize( 点 大 小 ) 滑 块 分 别 用 于 改变 每 一 个 单个 二 维 散 点 图 的 
大 小 和 数据 点 的 大 小 ;Jitter( 拌 动 ) 滑 块 用 于 随机 抖动 数据 ， 使 被 遮挡 的 点 可 见 ，Jitter 滑 块 
下 方 的 下 拉 列 表 框 用 于 更 改 着 色 的 属性 ，Fast scrolling( 快 速 滚动 ) 复 选 框 用 于 加 速 滚动 ， 但 
会 耗费 多 一 些 的 内 存 ，Select Attributes( 选 择 属性 ) 按 钮 用 于 选择 包含 在 散 点 图 矩阵 中 的 属性 
子 集 ; SubSample( 二 次 抽样 ) 按 钮 用 于 对 数据 进行 二 次 抽样 ， 可 以 设置 随机 数 种 子 和 抽样 的 
百分比 。 需 要 注意 的 是 ， 只 有 单 击 Update( 更 新 ) 按 钮 后 ， 上 述 更 改 才 会 生效 。 


1. 选择 单独 的 二 维 散 点 图 


当 用 户 单 击 散 点 图 矩阵 中 的 一 个 单元 格 时 ， 将 弹出 一 个 单独 的 窗口 ， 显 示 用 户 选 择 的 
可 视 化 散 点 图 ， 如 图 2.102 所 示 。 不 同 于 前 文 提 到 的 分 类 器 错误 可 视 化 ， 那 是 在 一 个 单独 
窗口 中 可 视 化 特定 结果 ， 而 这 里 的 可 视 化 对 象 是 数据 集 本 身 ， 尽 管 操作 相似 。 

观察 图 2.102，iris 数据 集 的 二 维 散 点 图 绘制 在 窗口 的 主要 区 域 中 。 窗 口 顶 部 有 两 个 下 
拉 列 表 框 用 于 选择 图 轴 ， 左 侧 的 下 拉 列 表 框 显示 可 用 于 轴 的 属性 ， 右 侧 的 下 拉 列 表 框 显 
示 可 用 于 工 轴 的 属性 。 碟 轴 选 择 器 下 方 是 选择 配色 方案 的 下 拉 列 表 框 ， 让 用 户 根据 所 选 属 
性 对 数据 点 着 色 ， 一 般 选 择 根 据 类 别 属性 对 数据 点 着 色 。 绘 图 区 域 下 方 的 Class colour 选 
项 组 中 有 一 个 图 例 ， 描 述 何 值 对 应 何 种 颜色 。 如 果 值 是 离散 的 ， 可 以 为 每 个 值 更 改 颜色 ， 
单 击 该 区 域 并 在 弹出 的 Select New Color( 选 择 新 颜色 ) 对 话 框 中 做 适当 的 修改 即 可 。 

绘图 区 的 右 侧 是 一 连 串 条 状 图 ， 每 条 代表 一 个 属性 ， 条 状 图 内 部 的 点 显示 属性 值 的 分 
布 。 这 些 值 垂直 随机 分 布 ， 帮 助 用 户 了 解数 据点 的 密度 。 单 击 条 状 图 可 以 选择 将 该 条 属性 
轴 用 于 主 图 ， 单 击 设置 其 为 并 轴 ， 右 击 设置 其 为 了 轴 。 条 状 图 旁边 的 “X” 和 “Y” 显 示 


隔 泗 永 凋 满 “ 山 Z 洲 全 IE 


y 
和 @ 


数据 挖掘 三 机 器 学 习 


@« 


——WEKA 


当前 轴 对 应 的 属性 ，“B” 表 示 一 个 属性 同时 用 作 了 轴 和 了 轴 。 


2.102 可视化 iris 数据 集 的 任意 两 个 属性 


窗口 中 Jitter 滑 块 的 功能 是 随机 移动 图 中 的 所 有 点 。 向 右 拖 动 滑 块 可 增加 拌 动量 ， 这 
在 观察 高 密度 重生 的 点 方面 非 党 有用。 如果 不 设 拌 动 ， 在 同一 点 上 即便 有 一 百 万 个 实例 ， 
看 起 来 也 与 只 有 一 个 单独 实例 的 点 没有 什么 不 同 。 

值得 一 提 的 是 ，Weka 还 提供 另外 一 种 打开 二 维 散 点 图 窗口 的 方式 。 在 Weka GUI 选 
择 器 窗口 中 ， 选 择 Visualization 菜单 下 的 Plot 菜单 项 ， 然 后 选择 一 个 ARFF 文件 ， 就 可 以 
打开 如 图 2.103 所 示 的 窗口 。 可 以 看 到 ， 与 图 2.102 相 比 ， 除 了 窗口 标题 栏 的 显示 有 所 不 
同 以 外 ， 其 他 部 分 完全 一 样 。 


图 2.103 ”直接 通过 菜单 打开 的 二 维 散 点 图 


2. 选择 实例 


可 能 会 有 这 种 情况 ， 需 要 使 用 可 视 化 工具 来 选择 数据 的 子 集 。 前 文 (参见 2.3.6 节 中 的 
“使 用 用 户 分 类 器 ”部 分 ) 已 经 讲述 过 这 样 一 个 示例 ， 使 用 Classify 标签 页 中 的 


UserClassifier 分 类 器 ， 用 户 可 以 通过 交互 选择 实例 来 构建 自己 的 分 类 器 。 

了 轴 选 择 器 下 方 的 下 拉 列 表 框 用 于 设置 选择 实例 的 方式 。 可 以 采用 以 下 四 种 方式 来 选 
择 一 组 数据 点 。 

(1) Select Instance( 选 择 实例 ): 单 击 一 个 单独 的 数据 点 会 弹出 一 个 窗口 ， 列 示 它 的 属 
性 。 如 果 在 同一 位 置 出 现 一 个 以 上 的 点 ， 就 显示 多 条 属性 。 

(2) Rectangle( 矩 形 ): 可 以 通过 拖 动 鼠标 创建 一 个 矩形 ， 将 要 选择 的 点 包括 在 内 。 

(3) Polygon( 多 边 形 ): 可 以 创建 一 个 自由 形状 的 多 边 形 ， 将 要 选择 的 点 包括 在 内 。 单 击 
添加 多 边 形 的 顶点 ， 右 击 完成 创建 。 完 成 后 ， 多 边 形 会 将 第 一 个 点 与 最 后 一 个 点 相连 接 ， 
因此 多 边 形 永 远 都 是 封闭 的 。 

(4) Polyline( 多 折线 ): 可 以 创建 一 条 多 折线 ， 把 一 侧 的 点 与 另 一 侧 的 点 分 隔 开 来 。 单 击 
添加 折线 的 顶点 ， 右 击 完成 创建 。 多 边 形 始终 是 封闭 的 ， 而 多 折线 是 开放 的 。 

如 果 使 用 矩形 、 多 边 形 或 多 折线 选中 一 个 图 形 区 域 ， 该 区 域 会 变 成 灰色 。 这 时 ， 单 
Submit 按钮 ， 会 删除 灰色 选择 区 域 以 外 的 所 有 实例 。 单 击 Clear 按钮 可 以 清除 选 定 区 域 ， 
而 不 影响 图 形 。 

如 果 从 图 中 已 经 删除 了 一 些 点 ，Submit 按钮 会 变 成 Reset 按钮 。 单 击 Reset 按钮 可 以 
撤销 先前 所 有 的 删除 操作 ， 并 回 到 原来 包括 所 有 点 的 图 。 最 后 ， 单 击 Save 按钮 可 以 将 当 
前 可 见 的 实例 保存 为 新 的 ARFF 文件 。 


2.7.2 ”边界 可 视 化 工具 


边界 可 视 化 工具 (BoundaryVisualizen) 不 在 探索 者 界面 上 ， 而 是 单独 的 可 视 化 工具 ， 需 
要 从 Weka GUI 选择 器 窗口 中 打开 。 选 择 Visualization 菜单 下 的 BoundaryVisualizer 菜单 
项 ， 可 打开 如 图 2.104 所 示 的 BoundaryVisualizer 窗口 。 
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2.104 ”BoundaryVisualizer 窗口 
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窗口 左上 角 的 Dataset( 数 据 集 ) 选 项 组 中 ， 有 一 个 Open File( 打 开 文件 ) 按 钮 ， 单 击 该 按 
钮 可 以 打开 ARFF 数据 文件 。 由 于 边界 可 视 化 工具 可 以 显示 数据 的 二 维 散 点 图 ， 因 此 特别 
适合 拥有 两 个 数值 属性 的 数据 集 。 在 Weka 自 带 数据 集中 ，iris.2D.arff 最 为 适合 ， 其 数值 
属性 有 petallength 和 petalwidth， 是 iris.arff 数据 集 去 除 第 一 、 二 个 属性 得 到 的 。 
打开 iris.2D.arff 数据 集 后 的 界面 如 图 2.105 所 示 。Class Attribute( 类 别 属 性 ) 选 项 组 中 默 
认 选 取 最 后 一 个 属性 为 类 别 属性 ， 可 单 击 下 拉 列 表 框 进行 更 改 。Visualization Attributes( 可 
视 化 属性 ) 选 项 组 显示 用 eed yeep 分 别 作 为 了 轴 和 了 轴 。 左 上 角 的 
Classifier( 分 类 器 ) 选 项 组 用 于 选择 分 类 器 ， 只 有 在 选择 好 分 类 器 之 后 ， 右 下 角 的 Start( 启 动 ) 
按钮 才 变 为 可 用 状态 。 左 下 角 显 示 数 据 二 维 散 上 点 图 ， ee ,的 不 同 颜色 表示 该 点 所 
属 的 类 别 ，Class color( 类 别 颜色 ) 选 项 组 中 标明 何 种 颜色 对 应 何 种 类 别 。Add/remove data 
points( 添 加 /删除 数据 点 ) 选 项 组 用 于 添加 或 删除 数据 点 ， pidge Add points( 添 加 点 ) 单 选 
按钮 ， 其 右边 的 下 拉 列 表 框 用 于 选择 所 添加 数据 点 的 类 别 ， 可 单 击 左 部 的 散 点 图 来 添加 指 
定 EE 的 数据 ， 选 中 Remove points( 删 除 点 ) 单 选 按 钮 后 ， ps 散 点 图 会 删除 击 中 的 数据 
; 慎 用 Remove all( 删 除 全 部 ) 按 钮 ， 这 会 删除 全 部 数据 点 ， 且 无 法 撤销 操作 。 上 述 操作 
只 Es 内 存 中 的 数据 ， 不 会 影响 加 载 的 数据 集 文件 。Open a new window( 打 开 新 窗口 ) 按 
钮 用 于 打开 一 个 新 的 BoundaryVisualizer 窗口 。Sampling control( 抽 样 控 制 ) 选 项 组 中 包括 三 
个 文本 框 ，Base for sampling( 抽 样 基准 ) 文 本 框 用 于 非 固定 尺寸 抽样 的 基准 ，Num. locations 
per pixel( 每 个 像素 的 位 置 数 量 ) 文 本 框 用 于 设置 每 个 像素 的 样本 数 ( 仅 用 于 固定 尺寸 )， 
Kermel bandwidth( 核 带宽 ) 文 本 框 用 于 设置 覆盖 最 近邻 的 核 带宽 。Plotting( 绘 图 ) 选 项 组 中 有 
-个 Plot training data( 绘 制 训练 数据 ) 复 选 框 ， 一 般 要 选中 该 复 选 枉 ， 和 否则 ， 只 会 绘制 预测 
边界 ， 而 看 不 见 训练 数据 。 单 击 Start 按钮 可 以 启动 分 类 训练 过 程 ， 同 时 该 按钮 变 成 
Stop( 停 止 ) 按 钮 ， 随 时 可 单 击 该 按钮 中 断 训 练 。 


2.105 ”打开 iris.2D.arff 后 的 结果 


单 击 Choose 按钮 选择 OneR 分 类 器 ， 使 用 默认 设置 ， 选 中 Plot training data 复 选 框 ， 
然后 单 击 Start 按钮 ， 注 意 按钮 文字 的 变化 ， 稍 等 片刻 后 训练 完成 ， 如 图 2.106 所 示 。 可 以 
看 到 ，OneR 只 使 用 一 个 属性 ， 这 里 的 petalwidth 属性 显然 比 petallength 属性 更 容易 分 开 三 
种 类 别 ， 因 此 按照 了 轴 对 数据 点 进行 分 类 。 


2.106 OneR 分 类 器 的 可 视 化 边界 


决策 边界 就 是 分 类 器 学 习 到 的 决策 规则 ， 该 规则 能 对 未 知 数据 进行 预测 。 落 在 红色 区 
域 (最 下 方 ) 的 数据 点 都 预测 为 Iris setosa， 绿 色 区 域 (中 间 ) 为 Iris versicolor， 蓝 色 区 域 (最 上 
方 ) 为 Iris virginica。 要 注意 到 OneR 是 “ 硬 ” 分 类 ， 它 硬性 划分 不 同 区 域 ， 因 此 对 测试 样 
本 的 预测 是 “ 非 此 即 彼 ” 模 式 。 


2.7.3 代价 /收益 分 析 可 视 化 


错误 分 类 无 疑 会 产生 代价 ， 且 不 同类 别 的 误 判 错误 的 代价 也 不 同 。 例 如 ， 将 癌症 患者 
误 判 为 健康 人 士 的 错误 代价 显然 比 将 健康 人 士 误 判 为 癌症 患者 要 严重 得 多 ， 前 者 可 能 会 因 
为 耽误 治疗 而 造成 生命 损失 ， 后 者 最 大 的 损失 不 过 是 在 精神 方面 。 
Weka 专门 为 挖掘 者 提供 了 一 个 交互 式 的 可 视 化 界面 ， 探 索 不 同 的 代价 场景 。 这 就 是 
Cost/Benefit Analysis( 代 价 /收益 分 析 ) 窗 
当 分 类 器 运行 完毕 后 ， 在 结 # 果 列表 中 右 击 条 目 ， 选 择 快捷 菜单 中 的 Cost/benefit 
mAlysis 菜单 项 ， 就 会 弹出 如 图 2.107 所 示 的 代价 /收益 分 析 窗 
2.107 中 显示 的 是 使 用 NaiveBayes 分 类 器 对 breast-cancer.arff 建 模 后 的 结果 。 本 例 
中 ， 共 有 287 个 实例 分 别 用 于 训练 和 测试 。 测 试 实例 根据 预测 为 recurrence-events( 复 发 事 
件 ) 类 别 的 概率 大 小 进行 排名 ， 左 边 的 图 为 提升 图 (tift charb ， 图 上 标识 为 阔 值 曲线 
(ThresholdCurve); 右边 的 图 为 总 代价 (total cost) 或 总 收益 (total benefit) 图 ， 图 上 标识 为 代价 
收益 曲线 (Cost/Benefit Curve)。 两 张 图 的 横 坐 标 都 为 样本 大 小 (Sample Size)。 
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2.107 ”代价 /收益 分 析 窗 口 


在 窗口 中 部 的 Threshold 选项 组 中 ， 拖 动 水 平滑 块 可 以 改变 从 排名 列表 中 选取 的 占 总 
体 (Total Population) 的 百分比 ， 当 滑 块 滑动 时 ， 两 张 图 上 的 大 叉 号 会 显示 当前 的 对 应 点 。 窗 
口 左下 部 的 Confusion Matrix( 混 淆 矩阵 ) 选 项 组 中 显示 TP、FN、FP 和 TN 的 样本 数 及 百 分 
比 。 窗 口 右 下 部 的 Cost Matrix( 代 价 矩 阵 ) 选 项 组 中 为 用 户 需 要 输入 的 数值 ， 输 入 不 同 数值 
会 影响 上 面 的 曲线 形状 。 代 价 矩 阵 右 边 显示 当 前 Cost、Random 和 Gain 的 具体 数值 ， 可 以 
通过 窗口 右 下 角 的 单 选 按钮 组 选择 到 底 显 示 Cost 还 是 Benefit。Maximize Cost/Benefit( 最 大 
化 代价 /收益 ) 和 Minimize CostBenefit( 最 小 化 代价 /收益 ) 按 钮 分 别 用 于 自动 选取 代价 /收益 曲 
线 上 最 大 值 和 最 小 值 的 对 应 点 。 

在 Threshold 选项 组 中 ， 滑 块 上 部 有 一 个 单 选 按钮 组 ， 默 认 选 中 “% of Population”( 总 
体 百分比 ) 单 选 按钮 。 另 外 两 个 选项 为 “% of Target(recal) ”和 Score Threshold， 前 者 通过 
调整 查 全 率 水 平 (recall level， 应 包含 在 样本 中 的 正 例 的 比例 ) 来 选取 样本 大 小 ， 后 者 则 通过 
调整 正 例 类 别 的 概率 阔 值 进行 选取 。 


2.7.4 手把手 教 你 用 
1. Visualize 标签 页 的 使 用 


Weka 的 可 视 化 功能 最 适合 于 观察 研究 数值 型 数据 集 ， 因 此 这 里 加 载 iris.arff 文件 。 高 
尾 花 数据 集中 包含 三 种 类 别 ， 即 Iris setosa、Iris versicolor 和 Iris virginica， 各 有 50 个 
样本 。 

单 击 Visualize 标签 ， 切 换 到 如 图 2.108 所 示 的 Visualize 标签 页 。 图 中 显示 5 行 5 列 
的 小 散 点 图 ， 即 横 坐 标 和 纵 坐 标 都 为 S， 对 应 数据 集 里 的 五 个 属性 : sepallength( 花 苯 长 )、 
sepalwidth( 花 莹 宽 )、petallength( 花 汶 长 )、petalwidth( 花 办 宽 ) 和 class( 类 别 )。 

单 击 第 二 行 第 一 列 的 小 散 点 图 ， 就 会 弹出 如 图 2.109 所 示 的 放大 散 点 图 。 其 中 ， 横 坐 
标 是 sepallength 属性 ， 纵 坐标 是 petalwidth 属性 。 实 例 显示 为 小 叉 号 ， 颜 色 由 实例 的 类 别 
确定 。 散 点 图 的 上 部 有 四 个 下 拉 列 表 框 ， 分 别 用 于 设置 不 坐标 、 了 坐标、 颜色、 选择 实 
例 ， 还 有 四 个 按钮 和 Jitter 滑 块 。 


2.108 ”Visualize 标签 页 


单 击 图 2.109 中 的 任意 一 个 小 叉 号 ， 就 会 弹出 如 图 2.110 所 示 的 实例 信息 窗口 ， 列 出 
所 选 实例 的 全 部 属性 值 。 观 察 后 关闭 该 窗口 ， 回 到 图 2.109 所 示 的 窗口 。 


2.109 ”放大 的 散 点 图 2.110 ”实例 信息 窗口 


现在 通过 放大 的 散 点 图 窗口 上 部 的 下 拉 列 表 框 ， 将 瑟 坐 标 设置 为 petalwidth， 工 坐标 设 
置 为 petallength， 观 察 散 点 图 的 变化 情况 。Colour: class (Nom) 下 拉 列 表 框 用 于 改变 数据 点 
的 颜色 编码 ， 其 中 ， 括 号 内 的 Nom 指标 称 型 属性 ，Num 指数 值 型 属性 。 

散 点 图 窗口 右 部 的 条 状 图 中 ， 每 条 表示 一 个 属性 ， 条 状 图 左边 的 红色 “X” 和 “Y” 
字符 分 别 表 示 当 前 的 了 坐标 和 了 坐标 为 何 种 属性 。 条 状 图 中 ， 实 例 被 放置 在 适当 的 水 平 位 
置 ， 并 随机 分 布 在 垂直 方向 上 。 单 击 条 状 图 ， 可 使 用 对 应 属性 作为 散 点 图 的 蕊 坐标 。 右 击 
条 状 图 ， 可 使 用 对 应 属性 作为 散 点 图 的 工 坐标 。 使 用 上 述 方法 将 蕊 坐标 和 了 坐标 分 别 改 回 
sepallength 属性 和 petalwidth 属性 。 

Jitter 滑 块 用 于 随机 移动 代表 实例 的 小 又 号 ， 这 是 为 了 能 显示 彼此 重 肥 的 每 个 实例 的 真 
实 位置 。 例 如 ， 图 2.110 中 所 显示 的 两 个 实例 ， 在 图 2.109 中 重 又 为 一 个 点 。 读 者 可 通过 
移动 Jitter 滑 块 来 体验 其 效果 。 

Select Instance( 选 择 实例 ) 下 拉 列 表 框 以 及 Reset、Clear、Save 按钮 用 于 修改 数据 集 。 
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数据 挖 所 与 机 器 学 习 
可 以 选择 某 些 实例 ， 并 删除 其 他 实例 。 例 如 ， 尝 试 这 样 使 用 Rectangle( 和 矩形 ) 选 项 : 首先 在 
下 拉 列 表 框 中 选择 Rectangle 选项 ， 然 后 拖 动 鼠标 来 选择 一 个 区 域 。 这 时 ，Reset 按钮 会 自 
动 变 成 Submit 按钮 ， 单 击 Submit 按钮 ， 和 矩形 以 外 的 所 有 实例 都 将 被 删除 。 用 户 可 以 单 击 
Save 按钮 将 修改 过 的 数据 集 保 存 到 文件 中 。 当 然 ， 单 击 Open 按钮 ， 可 以 打开 保存 后 的 数 
据 集 文件 ， 单 击 Reset 按钮 ， 可 以 恢复 到 原来 的 数据 集 。 


2. 可 视 化 数值 型 类 别 属性 


在 前 一 个 例子 中 ， 尽 管 有 多 个 属性 是 数值 型 的 ， 但 类 别 属性 却 是 标 称 型 的 。 本 例 查看 
类 别 属 性 为 数值 型 的 数据 集 。 加 载 data 目录 下 的 cpu.arff 文件 ， 单 击 Visualize 标签 ， 切 换 
到 Visualize 标签 页 ， 如 图 2.111 所 示 。 
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2.111 ”可视化 cpu 数据 集 


可 以 注意 到 ， 窗 口 底 部 的 颜色 编码 和 前 例 不 同 ， 这 里 显示 为 彩色 的 细 横 条 ， 从 左 到 右 
颜色 连续 由 蓝 色 逐渐 变 到 橙色 。 

此 外 ， 其 他 功能 都 与 类 别 属 性 为 标 称 型 的 一 样 ， 读 者 可 自行 尝试 上 一 个 实验 的 所 有 
操作 。 

3. 使 用 边界 可 视 化 工具 


本 实践 可 视 化 朴素 贝 叶 斯 和 大 最 近邻 分 类 器 的 边界 。 

首先 启动 BoundaryVisualizer 窗口 ， 单 击 Open File 按钮 加 载 iris.2D.arff 数据 集 ， 单 击 
Choose 按钮 选择 NaiveBayes 分 类 器 。NaiveBayes 分 类 器 假设 所 有 属性 都 条 件 独立 地 给 出 
特定 的 类 别 概率 值 ， 意 味 着 整个 类 别 的 概率 由 每 个 属性 条 件 概率 的 简单 相 乘 ( 且 考虑 到 类 别 
先 验 概率 ) 得 到 。 换 句 话 说 ， 如 果 知道 两 个 属性 沿 着 了 革 轴 和 了 轴 ( 以 及 类 别 先 验 概率 ) 的 类 别 
概率 ， 就 可 以 通过 将 它们 的 值 相 乘 然后 规范 化 的 方式 计算 空间 中 任意 点 的 概率 值 。 使 用 边 
界 可 视 化 工具 ， 很 容易 理解 其 工作 原理 。 更 多 贝 叶 斯 分 类 器 的 工作 原理 请 参见 第 6 章 和 附 
录 B。 

Weka 的 NaiveBayes 分 类 器 默认 假设 属性 在 给 定 类 别 的 条 件 下 为 正 态 分 布 ， 一 般 通 过 
在 通用 对 象 编辑 器 中 设置 useSupervisedDiscretization 选项 为 True， 使 用 有 监督 离散 化 技术 


对 数据 中 的 数值 属性 进行 离散 化 。 在 大 多 数 NaiveBayes 的 实际 应 用 中 ， 使 用 有 监督 离散 化 
比 默认 方式 更 有 效 ， 且 产生 的 可 视 化 更 容易 理解 ， 因 此 这 里 使 用 有 监督 离散 化 。 

单 击 Choose 按钮 旁边 的 文本 框 ， 在 弹出 的 通用 对 象 编辑 器 中 将 useSupervisedDiscretization 
选项 设置 为 True， 单 击 OK 按钮 确定 ， 此 时 文本 框 中 应 该 显示 NaiveBayes -D。 

确保 选中 Plot training data 复 选 框 ， 然 后 单 击 Start 按钮 启动 分 类 训练 过 程 ， 分 类 器 可 
视 化 边界 结果 如 图 2.112 所 示 。 可 以 看 到 ， 有 监督 离散 化 将 数值 属性 petallength 和 
petalwidth 离散 化 为 三 个 取 值 ， 在 散 点 图 上 形成 3 行 3 列 的 和 矩阵， 重生 区 域 显示 多 种 颜色 
的 混合 色 ， 表 示 分 类 器 难以 确定 在 这 些 区 域内 的 测试 样本 应 该 预测 为 哪 一 种 类 别 。 


图 2.112 ”NaiveBayes 的 可 视 化 边界 


下 面 可 视 化 大 最 近邻 分 类 器 的 边界 。IBk 是 Weka 实现 的 最 近邻 分 类 器 ， 它 通过 查 
看 测试 实例 的 大 个 最 近邻 并 计算 其 所 属 类 别 的 个 数 来 估计 类 别 概率 。 

还 是 使 用 iris.2D.arff 数据 集 ， 单 击 Choose 按钮 选择 IBk 分 类 器 ， 保 持 其 默认 选项 不 
变 。 然 后 单 击 Start 按钮 启动 分 类 训练 过 程 ， 结 果 如 图 2.113 所 示 。 可 以 看 到 ， 对 于 每 一 个 
类 别 ，IBk 输出 的 是 概率 估计 ， 边界 可 视 化 工具 根据 区 域 所 属 类 别 的 概率 输出 红色 、 绿 
色 、 蓝 色 及 它们 的 混合 色 。 由 于 大 默认 为 1， 只 考虑 最 近邻 的 一 个 成 员 ， 因 此 颜色 似乎 永 
远 只 能 是 纯色 ， 即 红色 、 绿 色 或 蓝 色 。 散 点 图 确实 几乎 没有 混合 色 ， 因为 某 个 类 别 概率 为 
1 时 其 他 概率 就 为 0。 但 在 中 上 部 ， 还 是 存在 一 小 片区 域 是 两 种 颜色 的 混合 。 这 是 怎么 回 
事 呢 ? 答案 是 ， 尽 管 可 能 性 不 大 ， 但 还 是 存在 多 个 不 同类 别 的 数据 点 占据 同一 个 位 置 的 可 
能 ， 这 样 就 能 合理 解释 混合 颜色 的 现象 。 请 读者 使 用 Visualize 标签 页 自行 验证 。 

最 后 研究 增 大 上 值 对 IBk 可 视 化 边界 的 影响 ， 图 2.114 和 图 2.115 分 别 是 二 5 和 有 10 
的 条 件 下 得 到 的 可 视 化 边界 。 可 见 ， 增 大 大 值 之 后 ， 边 界 层次 显得 更 为 丰富 ， 这 是 因为 最 
近邻 个 数 增加 导致 测试 实例 属于 不 同类 别 的 概率 组 合 增多 。 另 外 ， 还 要 注意 到 IBk 与 
OneR 不 同 ，IBk 属于 “ 软 ” 分 类 ， 不 同 纯色 之 间 的 界限 不 分 明 ， 不 是 “ 非 此 即 彼 ”， 而 是 
“ 亦 此 亦 彼 ”。 一 般 将 处 于 混合 色 中 的 测试 实例 预测 为 概率 值 最 大 的 类 别 。 
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图 2.113 ”IBk 的 可 视 化 边界 


图 2.114 k=5 的 IBk 可 视 化 边界 图 2.115 k=10 的 IBk 可 视 化 边界 


4. 代价 /收益 分 析 可 视 化 


在 探索 者 界面 中 打开 breast-cancer.arff 数据 集 ， 切 换 至 Classify 标签 页 ， 选 取 
NaiveBayes 分 类 器 ， 保 持 默认 选项 ， 单 击 Start 按钮 ， 然 后 在 结果 列表 中 右 击 并 选择 
Cost/benefit analysis | recurrence-events 菜单 项 ， 弹 出 前 文 如 图 2.107 所 示 的 代价 /收益 分 析 
窗口 。 

选中 窗口 右 下角 的 Benefit 单 选 按钮 切换 至 收益 ， 然 后 按照 图 2.116 来 设置 代价 矩阵 ， 
并 单 击 Maximize Cost/Benefit 按钮 。 可 以 看 到 ， 大 叉 号 已 经 位 于 代价 /收益 曲线 的 最 大 值 
上 ， 当 前 总 体 的 百分比 为 31.8182%， 分 类 准确 率 为 72.7273%。 

现在 解释 代价 和 矩阵 中 的 数值 含义 ， 和 矩阵 左上 和 角 的 3.0 表示 当 测 试 实例 为 正 例 
(recurrence-events) 时 ， 分 类 器 将 其 预测 为 正 例 ( 即 TP) 得 到 的 收益 ， 右 上 角 的 -1.0 表示 分 类 
器 将 其 预测 为 负 例 ( 即 FN) 得 到 的 负 收 益 ， 以 此 类 推 。 数 值 越 大 ， 表 示 收 益 越 大 ;数值 越 
小 ， 则 收益 越 小 。 在 真实 世界 中 ， 这 意味 着 正确 判断 癌症 复发 病人 得 到 的 收益 (3.0) 比 正确 


判断 不 会 复发 病人 得 到 的 收益 (1.0) 大 很 多 。 读 者 可 尝试 改变 代价 矩阵 ， 观 察 代价 / 收 益 曲线 
的 变化 。 
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2.116 ”代价 收益 分 析 结果 


下 面 研 究 两 个 极端 的 情形 。 首 先 将 滑 块 滑动 到 最 左边 ， 可 以 观察 到 提升 图 的 大 叉 号 到 
了 坐标 原点 上 ， 同 时 显示 总 体 占 比 为 0%， 如 图 2.117 所 示 。 此 时 的 物理 含义 是 将 全 体 样本 
都 预测 为 负 例 (no-recurrence-events)。 从 混淆 矩阵 中 可 以 看 到 ， 由 于 真实 的 正 例 仅 占 不 到 
30% 的 比例 ， 因 此 分 类 器 的 分 类 准确 率 还 是 超过 70%。 这 会 让 85 个 复发 患者 得 不 到 及 时 治 
疗 ， 效 果 极 差 。 
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2.117 总 体 占 比 为 0% 


然后 将 滑 块 滑动 到 最 右边 ， 可 以 观察 到 提升 图 的 大 叉 号 到 了 右上 角 ， 同 时 显示 总 体 占 
比 为 100%， 如 图 2.118 所 示 。 此 时 的 物理 含义 是 将 全 体 样本 都 预测 为 正 例 (recurrence- 
events)。 从 混淆 矩阵 中 可 以 看 到 ， 此 时 分 类 器 的 分 类 准确 率 不 到 30%。 尽 管 这 样 能 够 让 85 
个 复发 患者 得 到 及 时 治疗 ， 但 会 让 其 余 无 率 的 201 人 饱 受精 神 折磨 ， 代 价 也 相当 高 昂 。 
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一 一 WEKA 应 用 


2.1 加载 weather.nominal.arff 文件 后 ，temperature 属性 可 以 有 哪些 合法 值 ? 

2.2 ”加载 iris.arff 文件 后 ， 该 数据 集 有 多 少 个 实例 ? 有 多 少 个 属性 ?petalwidth 属性 值 
可 取 的 范围 是 多 少 ? 

2.3 ”使 用 数据 集 编辑 器 打开 weather.nominal.arff 文件 ， 实 例 编号 为 2 的 类 别 属性 值 是 
多 少 ? 

2.4 ”使 用 数据 集 编辑 器 加 载 iris 数据 集 ， 该 数据 集 的 属性 中 有 多 少 个 是 数值 型 的 ? 又 
有 多 少 个 是 标 称 型 的 ? 

2.5 ”加载 weathernominalarff 数据 集 ， 使 用 wekaunsupervised.instance. 
RemoveWithValues 过 滤器 去 除 humidity 属性 值 为 high 的 全 部 实例 。 


提示 : 首先 选择 RemoveWithValues 过 滤器 ， 然 后 在 通用 对 象 编辑 器 中 尝试 调整 参 
数 ， 弄 清楚 每 个 参数 的 含义 ， 并 解决 问题 。 


2.6 根据 图 2.51 所 示 的 决策 树 ， 下 列 实例 会 怎样 进行 分 类 ? 

outlook = sunny，temperature = cool, humidity = high，windy = TRUE 

2.7 ”使 用 离散 化 处 理 过 的 属性 ， 某 些 属性 在 直方 图 中 只 有 单一 一 栏 ， 这 是 怎么 回 事 ? 

2.8 使 用 FilteredClassifier 和 J48， 并 采用 有 监督 的 二 元 离散 化 ， 与 只 使 用 J48 处 理 原 
始 数据 的 结果 相 比较 。 为 何 从 离散 化 后 的 数据 构建 的 决策 树 ， 比 起 直接 从 原始 数据 构建 的 
决策 树 ， 有 更 好 的 预测 效果 ? 

2.9 在 “手工 选择 属性 ”实验 中 ， 是 否 可 以 使 用 J48 替换 IBk? 为 什么 ? 

2.10 对 于 weather.nominal.arff 数据 ， 根 据 Apriori 算法 输出 ， 下 列 项 集 的 支持 实例 有 
几 个 ? 

temperature=cool, humidity=normal, windy=FALSE, play=yes 

2.11 假设 想 生 成 具有 一 定 置信 度 和 最 小 支持 度 的 全 部 规则 ， 可 以 对 minMetric、 
lowerBoundMinSupport 以 及 numRules 参数 设置 适当 的 值 。 对 于 表 2.15 中 天 气 数据 的 每 一 


种 组 合 参数 值 ， 可 能 的 规则 总 数 是 多 少 ? 


表 2.15 练习 2.11 表 


最 小 置信 度 最 小 支持 度 规则 总 数 
0.9 03 
0.9 0.2 
0.9 0.1 
0.8 03 
0.8 02 
0.8 0.1 
0.7 03 
0.7 0.2 
0.7 0.1 


2.12 对 labor.arff 文件 中 
重要 的 属性 。 


劳资 谈判 数据 应 用 排序 技术 ， 确 定 基 于 信息 增益 的 四 个 最 


2.13 ”使 用 劳资 谈判 数据 集 ， 运 行 基于 相关 性 的 CfsSubsetEval 评估 器 ， 使 用 BestFirst 
搜索 方法 ; 然后 运行 J48 作为 基 学 习 器 的 包装 方法 ， 再 次 使 用 BestFirst 搜索 方法 。 检 查 
输出 的 属性 子 集 ， 这 两 种 方法 都 选择 出 来 的 有 哪些 属性 ? 它们 与 使 用 信息 增益 所 生成 的 排 


序 输 出 有 何 关系 ? 
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压 第 3 章 
知识 流 珊 面 


知识 流 (KnowledgeFlow) 界 面 是 探索 者 界面 的 有 益 补充 。 使 用 知识 流 
界面 ， 用 户 可 以 从 设计 面板 中 选择 Weka 组 件 ， 将 组 件 放 置 到 布局 区 域 ， 
并 将 它们 连接 成 有 向 图 以 形成 “知识 流 ” 进 行 数据 处 理 和 分 析 。 知 识 流 界 
面 提供 了 探索 者 界面 的 一 个 替代 品 ， 特 别 适 合 那些 习惯 于 思考 数据 如 何在 
统 中 流动 的 用 户 。 通 过 它 ， 能 够 设计 和 配置 数据 流程 ， 并 执行 相应 的 数 
据 处 理 ， 这 在 探索 者 界面 中 是 无 法 做 到 的 。 

熟悉 RapidMiner 的 读者 见 到 知识 流 界面 一 定 会 倍 感 亲切 ， 两 者 都 是 
图 形 化 的 建 模 工具 ， 都 具备 易 用 性 的 优势 ， 不 用 学 习 复 杂 的 命令 ， 就 可 以 
进行 数据 分 析 和 挖 所 操作 。 
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3.1 知识 流 介 绍 


单 击 Weka GUI 选择 器 窗口 中 的 KnowledgeFlow 按钮 ， 即 可 启动 如 图 3.1 所 示 的 知 
识 流 界面 。 


3.1 ”知识 流 界 面 


图 3.1 所 示 为 更 新 后 的 知识 流 界 面 ， 与 Weka 3.7.4 以 前 的 版 本 有 所 不 同 。 单 击 知识 流 
界面 右上 角 工 具 栏 中 的 岛 按钮 ， 可 以 查看 最 新 的 帮助 文档 。 


3.1.1 识 流 特性 


知识 流 界面 提供 了 探索 者 界面 的 一 个 替代 品 ， 它 是 Weka 核心 算法 的 图 形 化 前 端 ， 为 
Weka 提供 了 一 个 “数据 流 ”接口 。 用 户 可 以 从 设计 面板 中 选择 Weka 组 件 ， 放 置 在 布局 区 
域 ， 并 把 它们 连接 起 来 形成 一 个 供 处理 和 分 析 数 据 的 “知识 流 ”。 目 前 ，Weka 所 有 的 分 
类 器 、 过 滤器 、 聚 类 器 、 加 载 器 和 保存 器 等 ， 以 及 一 些 额 外 的 工具 ， 都 可 以 在 知识 流 中 
使 用 。 

知识 流 能 以 增 量 方式 或 批量 方式 处 理 数据 ， 而 探索 者 仅 能 处 理 批量 数据 。 当 然 ， 增 量 方 
式 从 流 式 数据 中 学 习 ， 需 要 分 类 器 能 够 基于 一 个 实例 一 个 实例 地 进行 更 新 。 可 以 增 量 方式 处 
理 数 据 的 学 习 方 案 有 NaiveBayesUpdateable、IBk、LWR(Locally Weighted Regression， 局 部 
加 权 回 归 )、SGD、SPegasos、Cobweb 和 RacedIncrementalLogitBoost 等 。 

知识 流 的 特性 如 下 。 

(1) 直观 的 数据 流程 风格 的 布局 。 

(2) 批量 或 增 量 方式 处 理 数 据 。 

(3) 处 理 多 批 次 或 并 行 处 理 流 式 数据 ， 即 每 个 单独 的 数据 流 都 在 自己 的 线程 中 执行 。 
也 可 以 由 用 户 指定 顺序 ， 按 顺序 执行 多 个 数据 流 。 

(4) 将 过 滤器 串 成 链 。 

(5) 观察 由 分 类 器 产生 的 、 使 用 交叉 验证 方式 的 每 个 折 的 模型 。 

(6) 在 处 理 过 程 中 ， 可 视 化 增 量 分 类 器 的 性 能 。 提 供 分 类 精度 、RMS 误差 、 预 测 等 的 
滚动 散 点 图 。 

(7) 通过 视角 (Perspectives) 插 件 ， 访 问 其 他 非 基 于 流 的 功能 (如 3D 数据 可 视 化 、 时 间 序 


列 预 测 环境 等 )。 


3.1.2 ”知识 流 界 面 布局 

知识 流 界面 可 分 为 以 下 五 个 部 分 。 

1. 视角 工具 栏 

视角 (Perspectives) 工 具 栏 位 于 知识 流 界 面 的 项 部。 视角 是 管理 知识 流 用 户 界面 的 环 
境 ， 它 提供 主要 的 附加 功能 。 许 多 视角 都 可 以 对 实例 集 进行 操作 ， 通 过 将 DataSource( 数 据 
源 ) 组 件 放 到 布局 区 域 ， 进 行 配置 ， 然 后 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Send to 
perspective( 发 送 给 视角 ) 菜 单项 ， 可 将 实例 发 送 给 视角 。 知 识 流 界面 内 建 了 几 个 视角 ， 可 通 
过 包 管 理 器 安装 其 他 的 视角 。 

第 一 次 单 击 位 于 知识 流 界面 顶部 的 辆 按钮 时 ， 会 弹出 如 图 3.2 所 示 的 Perspective 
information( 视 角 信息 ) 对 话 框 ， 其 中 显示 了 一 些 视角 的 说 明 信 息 ， 如 果 不 想 再 次 看 到 该 提 
示 ， 可 以 选中 Do not show this message again 复 选 框 ， 然 后 单 击 “ 确 定 ” 按 钮 。 此 时 会 弹出 
如 图 3.3 所 示 的 Manage Perspectives( 管 理 视角 ) 对 话 框 。 


3.2 “Perspective information 对 话 框 3.3 ”Manage Perspectives 对 话 框 

知识 流 自 带 三 个 视角 : Attribute summary( 属 性 概要 )、SQL Viewer(SQL 查看 器 ) 和 
Scatter plot matrix( 散 点 图 矩阵 )。Manage Perspectives 对 话 框 上 部 有 四 个 按钮 ， 单 击 All 按 
钮 选中 全 部 ， 单 击 None 按钮 全 部 取消 选中 ， 单 击 Invert 按钮 反选 ， 单 击 Pattern 按钮 使 用 
Perl 正则 表达 式 指定 要 选中 的 视角 ， 例 如 ，“.*matrix” 选 择 满足 属性 名 称 以 字符 串 matrix 
结束 的 全 部 视角 。Manage Perspectives 对 话 框 下 部 有 两 个 按钮 ， 单 击 OK 按钮 确认 选中 的 
操作 ， 单 击 Cancel 按钮 放弃 操作 。 

如 果 单 击 All 按钮 ， 然 后 再 单 击 OK 按钮 ， 会 发 现 知识 流 界面 顶部 多 出 了 三 个 标签 
页 ， 如 图 3.4 所 示 。 


| 党 Dt sining processed ta Attribute summary SQL Vierer 国 Scatter plot matrix 


3.4 ”多 个 视角 标签 


2. 工具 栏 
工具 栏 位 于 视角 工具 栏 下 方 ， 分 为 左 、 右 两 个 部 分 ， 如 图 3.5 所 示 。 
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图 3.5 工具 栏 


左边 的 工具 栏 与 知识 流 运行 相关 ， 只 有 四 个 按钮 ， 其 功能 分 别 为 : 选择 光标 、 运 行 本 
数据 流 (并 行 启动 全 部 开始 节点 )、 运 行 本 数据 流 (顺序 启动 开始 节点 )、 停 止 全 部 执行 。 

右边 的 工具 栏 与 编辑 操作 相关 ， 有 18 个 按钮 ， 其 功能 分 别 为 : 放大 (Ctrlt+)、 缩 小 
(Ctrl+-)、 选 择 全 部 (Ctrl+A)、 成 组 选择 (Ctrl+Z)、 剪 切 所 选 (Ctrl+X)、 复 制 所 选 (Ctrl+C)、 删 
除 所 选 (DEL)、 从 剪贴 板 粘贴 (Ctrl+V)、 撤 销 (CtlHU)、 在 布局 中 添加 注释 (CtrlHtD、 对 齐 到 
网 格 、 新 建 布局 (CtrHHN)、 保 存 布局 (Ctrl+S)、 使 用 新 名 称 保存 布局 、 加 载 布局 (Ctrl+O)、 
加 载 布局 模板 、 显 示 / 隐 藏 视 角 工 具 栏 (Ctrl+P) 和 显示 帮助 (CtrlHH)。 


3. 设计 面板 


设计 (Desigh) 面 板 位 于 知识 流 界面 左 部 ， 其 中 列 示 了 全 部 可 用 的 Weka 组 件 ， 用 户 可 从 
中 选择 某 个 组 件 并 将 其 放置 在 布局 区 域 。 知 识 流 可 用 的 组 件 按 功 能 分 为 九 个 大 类 ， 下 面 简 
单 叙述 各 组 件 的 功能 ， 详 细 配 置信 息 参见 3.2 节 。 

(1) DataSources( 数 据 源 ): 全 部 可 用 的 Weka 加 载 器 。 

(2) DataSinks( 数 据 接 收 器 ): 全 部 可 用 的 Weka 保存 器 。 

(3) Filters( 过 滤器 ): 全 部 可 用 的 Weka 过 滤器 。 

(4) Classifiers( 分 类 器 ): 全 部 可 用 的 Weka 分 类 器 。 

(5) Clusterers( 聚 类 器 ): 全 部 可 用 的 Weka 聚 类 器 。 

(6) Associations( 关 联 器 ): 全 部 可 用 的 Weka 关联 器 。 

(7) Evaluation( 评 估 器 ): 可 用 的 评估 器 如 下 。 


TrainingSetMaker: 将 数据 集 转换 为 训练 集 。 

TestSetMaker: 将 数据 集 转换 为 测试 集 。 

CrossValidationFoldMaker: 将 任意 数据 集 、 训 练 集 或 测试 集 分 割 为 交叉 验证 
的 折 。 

TrainTestSplitMaker: 将 任意 数据 集 、 训 练 集 或 测试 集 分 割 为 训练 集 或 测试 集 。 
ClassAssigner: 对 于 任意 的 数据 集 、 训 练 集 或 测试 集 ， 指 定 一 列 作为 类 别 属性 。 
ClassValuePicker: 选择 一 个 视 为 正 例 的 类 别 标签 值 。 生 成 ROC 风格 的 曲线 数据 
时 ， 需 要 使 用 该 组 件 。 

ClassifierPerformanceEvaluator: 评估 分 类 器 批量 训练 及 测试 的 性 能 。 
IncrementalClassifierEvaluator: 评估 分 类 器 增 量 训练 的 性 能 。 
ClustererPerformanceEvaluator: 评估 聚 类 器 批量 训练 及 测试 的 性 能 。 
PredictionAppender: 在 测试 集中 追加 分 类 器 的 预测 。 对 于 离散 类 别 的 问题 ， 可 以 
追加 预测 类 别 标签 或 概率 分 布 。 

SerializedModelSaver : 将 封装 在 batchClassifier 、 incrementalClassifier 或 
batchClusterer 中 的 分 类 器 或 聚 类 器 保存 为 文件 ， 以 便 将 来 使 用 。 


(8) Visualization( 可 视 化 器 ): 可 用 的 可 视 化 器 如 下 。 


DataVisualizer: 运行 知识 流 后 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show plot 


菜单 项 ， 会 弹出 Visualize 窗口 ， 用 于 以 单个 较 大 的 二 维 散 点 图 形式 可 视 化 输入 的 
数据 集 、 训 练 集 或 测试 集 。 

ScatterPlotMatrix: 运行 知识 流 后 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show 
plot 菜单 项 ， 会 弹出 Visualize 窗口 ， 其 中 包含 一 个 由 小 的 散 点 图 组 成 的 矩阵 ， 单 
击 其 中 的 小 散 点 图 会 弹出 一 个 较 大 的 散 点 图 。 

AttributeSummarizer: 运行 知识 流 后 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 
Show summaries 菜单 项 ， 会 弹出 Visualize 窗口 ， 其 中 包含 直方 图 的 矩阵 ， 每 个 
直方 图 对 应 输入 数据 中 的 一 个 属性 。 

ModelPerformanceChart: 运行 知识 流 后 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 
Show chart 菜单 项 ， 会 弹出 Model Perfonmance Chart 窗口 ， 用 于 可 视 化 阔 值 即 ROC 风格 ) 
曲线 。 

CostBenefitAnalysis: 运行 知识 流 后 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 
Show analysis 菜单 项 ， 会 弹出 Cost/Benefit Analysis 窗口 ， 用 于 通过 交互 式 地 从 预 
测 类 别 的 概率 排名 列表 中 选择 不 同 的 总 体 大 小 ， 或 通过 改变 预测 正 例 概率 的 阐 
值 ， 来 探索 代价 /收益 权衡 。 可 以 显示 累计 增益 曲线 和 代价 /收益 曲线 。 
TextViewer: 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show results 菜单 项 ， 会 弹出 
一 个 显示 文本 数据 的 窗口 ， 可 显示 数据 集 、 分 类 性 能 统计 等 。 

GraphViewer: 运行 知识 流 后 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show 
results 菜单 项 ， 会 弹出 Graph Viewer 窗口 ， 其 中 包含 记录 运行 结果 的 Graph list 
列表 框 ， 单 击 任意 项 会 弹出 一 个 用 于 可 视 化 基于 树 的 模型 的 窗口 。 

StripChart: 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show chart 菜单 项 ， 会 弹出 
Strip Chart 窗口 ， 显 示 带 滚动 条 的 数据 散 点 图 ， 用 于 查看 增 量 分 类 器 的 在 线性 
能 。 

ImageSaver: 该 组 件 可 以 接受 image 连接 ， 并 将 封装 的 图 像 保存 到 磁盘 文件 中 。 
ImageViewer: 该 组 件 可 以 接受 image 连接 ， 右 击 该 组 件 ， 在 弹出 的 快捷 菜单 中 选 
择 Show results 菜单 项 ， 会 弹出 Image Viewer 窗口 ， 用 于 显示 静态 图 像 。 


(9) Tools( 工 具 ): 可 用 的 工具 如 下 。 


Sorter: 根据 用 户 指定 的 属性 值 ， 以 升序 或 降序 对 传 入 的 实例 进行 排序 。 
SubstringLabeler: 匹配 String 属性 的 子囊， 可 以 使 用 文本 匹配 ， 或 者 正则 表达 
式 匹 配 。 

SubstringReplacer: 蔡 换 String 属性 的 子 串 ， 可 以 使 用 文本 匹配 替换 ， 或 者 使 用 正 
则 表达 式 匹配 蔡 换 。 


(10) Flow( 流 ): 可 用 的 流 组 件 如 下 。 


Appender: 追加 多 个 传 入 数据 为 一 个 单一 数据 集 。 传 入 连接 可 以 是 全 部 实例 连 
接 ， 或 者 是 面向 所 有 批量 的 连接 ， 即 数据 集 、 训 练 集 和 测试 集 。 
FlowByExpression: 根据 逻辑 表达 式 的 求 值 结 果 划 分 传 入 的 实例 (或 实例 流 )。 
InstanceStreamToBatchMaker: 将 实例 流转 换 为 一 个 批量 数据 集 。 与 水 库 抽 样 滤波 
器 一 并 使 用 时 很 有 用 。 

Join: 将 两 个 输入 数据 集 或 实例 流 进行 内 连接 (inner join)。 注 意 ， 这 里 假设 两 个 数 
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据 集 都 将 关键 字段 按 升序 排序 。 
4. 布局 面板 
布局 面板 用 于 完成 数据 流 的 设计 工作 。 
5. 状态 /日 志 面 板 
状态 /日 志 (Status/Log) 面 板 位 于 知识 流 界 面 的 右 下 部 ， 以 标签 页 的 形式 展现 。Status( 状 


态 ) 标 签 页 显示 能 让 用 户 了 解 现在 进行 到 哪 一 步 的 状态 信息 。Log( 日 志 ) 标 签 页 显示 为 一 个 
多 行文 本 框 ， 显 示 在 此 次 运行 期 间 Weka 所 进行 的 全 部 活动 以 及 每 项 活动 的 时 间 戳 。 


3.2 ”知识 流 组 件 


知识 流 的 组 件 很 丰富 ， 包 括 Weka 的 分 类 器 、 过 滤器 、 聚 类 器 、 关 联 器 、 加 载 器 和 保 
存 器 等 ， 以 及 一 些 附加 工具 。 下 面 按照 Weka 知识 流 界面 设计 面板 中 组 件 树 的 功能 分 类 ， 
依次 说 明 每 个 组 件 的 功能 。 

将 知识 流 组 件 放 到 布局 区 域 中 ， 双 击 组 件 就 会 弹出 一 个 配置 对 话 框 ， 可 以 对 组 件 选项 
进行 配置 。 

由 于 过 滤器 、 分 类 器 、 聚 类 器 、 关 联 器 已 经 在 第 2 章 介 绍 过 ， 这 里 不 再 重复 进行 
介绍 。 


3.2.1 数据 源 
数据 源 包括 全 部 可 用 的 Weka 加 载 器 ， 一 共有 11 个 组 件 。 


1. ArffLoader(ARFF 文件 加 载 器 ) 


ArffLoader 用 于 读 取 ARFF 格式 的 源 数据 文件 。 

其 配置 选项 说 明 如 下 。 

e@ Filename( 文 件 名 ): 要 加 载 的 ARFF 数据 文件 。 

e “retainStringVals( 保 持 字符 串 值 );， 如 果 为 True， 当 增 量 读 取 数 据 时 ， 将 字符 串 型 属 
性 值 保 持 在 内 存 中 。 在 知识 流 中 使 用 增 量 分 类 器 应 将 其 设置 为 False。 默 认为 


False。 
e ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 
False。 


2. C45Loader(C45 文件 加 载 器 ) 


C45Loader 用 于 读 取 C45 格式 的 文件 。 可 以 仅 指定 文件 名 ， 而 不 指定 扩展 名 。 支 持 的 
文件 扩展 名 有 .names 或 .data， 假 设 存在 path\<filestem>.names 和 path\<filestem>.data 两 个 文 
件 ， 仅 指定 文件 名 为 path\<filestem> 即 可 。 其 中 ，.name 文件 和 .data 文件 分 别 包含 数据 集 
的 属性 名 称 和 数据 。 

其 配置 选项 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 C45 数据 文件 。 


useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


3. CSVLoader(CSV 文件 加 载 器 ) 


CSVLoader 用 于 读 取 以 逗号 (默认 ) 分 隔 格式 的 源 数据 文件 。 可 以 将 列 分 隔 符 由 喜 号 改 
为 其 他 符号 ， 如 制 表 符 或 其 他 字符 。 可 指定 字符 串 界 线 字 符 ， 指 定 是 否 存 在 标题 行 以 及 指 
定 哪些 属性 强制 为 标 称 型 或 日 期 型 。 

其 配置 选项 说 明 如 下 。 


Filename( 文 件 名 ): 要 加 载 的 CSV 数据 文件 。 

bufferSize( 缓 冲 区 大 小 ): 任意 时 刻 在 内 存 中 处 理 的 行 数 。 

dateAttributes( 日 期 型 属性 ): 强制 为 日 期 类 型 的 属性 范围 ， 如 “first-last”“1,4,7- 
14, 50-last”。 

dateFormat( 日 期 格式 ): 解析 日 期 值 所 使 用 的 格式 。 

enclosureCharacters( 界 线 字 符 ): 用 作 字 符 串 界线 的 字符 ， 如 “"”“'”。 
fieldSeparator( 字 段 分 隔 符 ): 用 作 列 /字段 的 分 隔 符 ， 使 用 “\t” 表 示 制 表 符 。 
missingValue( 缺 失 值 ): 缺失 值 的 占 位 符 ， 默 认为 “?”。 
noHeaderRowPresent( 无 标题 行 );， 数据 的 第 一 行 不 是 包含 属性 名 称 的 标题 行 。 默 
认为 False。 

nominalAttributes( 标 称 型 属性 ): 强制 为 标 称 类 型 的 属性 范围 ， 如 “first-last” 
“1,4,.7-14.50-last”。 

nominalLabelSpecs( 标 称 标签 规格 ): 标 称 型 属性 合法 标签 的 可 选 规格 ， 可 以 被 多 
次 指定 。 批 量 模式 可 以 自动 确定 ;在 增 量 模式 下 ， 如 果 第 一 个 在 内 存 缓冲 中 加 载 
的 实例 包含 所 有 合法 值 的 样本 ， 则 也 可 以 自动 确定 。 规 格 包含 由 “:” 字 符 分 开 的 
两 个 部 分 。 第 一 部 分 可 以 是 属性 索引 范围 或 以 逗号 分 隔 的 属性 名 称 列表 ， 第 二 部 分 
是 以 逗号 分 隔 的 标签 列表 ， 如 “1,2,4-6:red,green,blue” “attl,att2:red,green,blue”。 
numericAttributes( 数 值 型 属性 ): 强制 为 数值 类 型 的 属性 范围 ， 如 “first-last” 
“1.4,7-14.50-last”。 

stringAttributes( 字 符 串 型 属性 ): 强制 为 字符 串 类 型 的 属性 范围 ， 如 “first-last” 
®1,4,7-14,50-last” 。 

useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


4. DatabaseLoader( 数 据 库 加 载 器 ) 


DatabaseLoader 用 于 从 数据 库 中 读 取 实 例 ， 能 以 批量 或 增 量 模式 读 取 数 据 库 。 

增 量 模式 支持 MySQL 和 HSQLDB。 

对 于 其 他 所 有 的 DBMS， 使 用 伪 增 量 模式 。 在 伪 增 量 模式 中 ， 一 次 将 所 有 实例 读 入 到 
主 存储 器 中 ， 然 后 增 量 提供 给 用 户 。 

使 用 增 量 加 载 ， 数 据 库 表 中 的 行 必须 经 过 唯一 排序 。 这 是 因为 通过 扩展 用 户 查询 语句 
的 LIMIT 子 句 ， 每 次 只 能 取出 一 个 单行 。 如 果 数 据 库 不 支持 该 扩展 ， 将 使 用 伪 增 量 模式 载 
入 实例 。 为 了 确保 每 行 仅 读 取 一 次 ， 数 据 库 表 行 必须 唯一 排序 。 因 此 ， 主 键 是 必需 的 。 
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如 果 使 用 DatabaseSaver 且 通 过 自动 生成 的 主键 (其 名 称 在 DatabaseUtils 配置 文件 中 定 


义 ) 来 保存 实例 ， 该 主键 将 用 于 排序 ， 不 能 成 为 输出 的 一 部 分 。 用 户 定义 的 抽取 实例 的 
SQL 查询 不 能 包含 LIMIT 和 ORDER BY 子 句 (参见 下 面 Query 选项 中 查询 语句 的 格式 )。 


此 外 ， 对 于 增 量 加 载 ， 可 以 在 DatabaseUtils 配置 文件 中 使 用 nominalToStringLimit 选 


项 定义 一 个 标 称 型 属性 允许 有 多 少 个 不 同 值 。 如 果 超 过 这 个 值 ， 该 列 就 成 为 一 个 字符 串 型 
属性 。 例 如 ，DatabaseUtils 文件 中 有 如 下 配置 : 


nominalTostringLimit=50 


这 表明 一 个 标 称 型 属性 只 允许 有 50 个 不 同 值 。 如 果 某 个 标 称 型 属性 有 60 个 不 同 值 ， 


该 标 称 型 属性 只 能 成 为 一 个 字符 串 型 属性 。 


使 用 批量 模式 ， 不 会 因 上 述 限制 而 创建 新 的 字符 串 型 属性 。 

其 配置 选项 说 明 如 下 。 

e Database URL( 数 据 库 URL): 数据 库 的 URL。 

e ”Usermame( 用 户 名 ): 数据 库 用 户 名 。 

e@ ”Password( 密 码 ): 数据 库 密码 。 

e ”Query( 查 询 ):; 加 载 实例 的 查询 语句 。 查 询 语句 的 格式 应 为 : 


SELECT <column-list>|* FROM <table> [WHERE <conditions>] 


e ”Key columns( 主 键 列 ): 对 于 增 量 加 载 ， 必 须 详 细 说 明 唯一 的 标识 ID。 
如 果 查 询 包括 表 的 全 部 列 ( 即 SELECT *)， 有 的 JDBC 驱动 程序 可 以 自动 检测 到 主 
键 列 。 如 果 无 法 检测 到 主键 ， 可 以 在 这 里 使 用 由 逗号 分 隔 的 列表 指定 的 主键 列 。 
e DB config props( 数 据 库 配 置 属 性 ): 自 定 义 属性 ， 用 户 可 以 用 它 来 替代 默认 值 。 


5. JSONLoader(JSON 文件 加 载 器 ) 


JSONLoader 用 于 读 取 JSON 格式 的 源 数 据 文件 。 

如 果 文 件 扩展 名 为 json.gz， 会 自动 解压 缩 数据 。 

其 配置 选项 说 明 如 下 。 

e Filename( 文 件 名 ): 要 加 载 的 JSON 数据 文件 。 

。 ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝对 路 径 。 默 认为 
False。 

6. LibSVMLoader(LibSVM 文件 加 载 器) 

LibSVMLoader 用 于 读 取 LibSVM 格式 的 源 数据 文件 。 

其 配置 选项 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 LibSVM 数据 文件 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 
False。 


7. MatlabLoader(Matlab 文件 加 载 器 ) 


MatlabLoader 用 于 读 取 Matlab 源 数据 文件 ， 文 件 中 包含 一 个 ASCII 格式 的 单个 矩阵 。 
其 配置 选项 说 明 如 下 。 


e ”Filename( 文 件 名 ): 要 加 载 的 Matlab 数据 文件 。 
e ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝对 路 径 。 默 认为 


False。 
8. SerializedlnstancesLoader( 序 列 化 实例 文件 加 载 器 ) 


SerializedInstancesLoader 用 于 读 取 包含 序列 化 实例 的 源 数据 文件 。 

其 配置 选项 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 序列 化 数据 文件 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 
9. SVMLightLoader(SVMLight 文件 加 载 器 ) 


SVMLightLoader 用 于 读 取 SVMLight 格式 的 源 数 据 文件 。 

其 配置 选项 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 SVMLight 数据 文件 。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 
10. TextDirectoryLoader( 文 本 目录 加 载 器 ) 


TextDirectoryLoader 用 于 加 载 目 录 中 的 所 有 文本 文件 ， 并 使 用 子 目 录 名 称 作为 类 别 标 
。 文 本 文件 的 内 容 将 存储 为 字符 串 型 属性 ， 也 可 以 存储 文件 名 。 

其 配置 选项 说 明 如 下 。 

e ”charSet( 字 符 集 ): 用 于 读 取 文本 文件 的 字符 集 ( 如 UTF-8)， 要 使 用 默认 的 字符 集 ， 

请 将 本 参数 设 为 空白 。 

e ”Debug( 调 试 ): 是 否 将 额外 调试 信息 打印 到 控制 台 。 默 认为 False。 

e ”Directory( 目 录 ): 要 加 载 的 目标 目录 。 

e ”outputFilename( 输 出 文件 名 ): 是 否 将 文件 名 存储 为 额外 的 属性 。 默 认为 False。 


11. XRFFLoader(XRFF 文件 加 载 器 ) 


XRFFLoader 用 于 读 取 ARFF 格式 的 XML 版 本 源 数据 文件 。 

如 果 文 件 扩展 名 为 .xrff gz， 会 自动 解压 缩 数据 。 

其 配置 选项 说 明 如 下 。 

e ”Filename( 文 件 名 ): 要 加 载 的 XML 格式 的 ARFF 数据 文件 。 
euseRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


3.2.2 ”数据 接收 器 


数据 接收 器 包括 全 部 可 用 的 Weka 保存 器 ， 一 共有 12 个 组 件 。 
多 数 文件 型 的 数据 接收 器 都 有 以 下 几 个 通用 选项 。 
e ”Prefix for file name( 文 件 名 前 级 ): 仅 包 括 文件 名 ， 不 包括 扩展 名 。 
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Relation name for filename( 用 关系 名 称 作为 文件 名 ): 如 果 选 中 该 复 选 框 ， 则 使 用 
关系 名 称 作 为 文件 名 。 默 认为 选中 。 

Directory( 目 录 ): 保存 文件 的 目录 。 

Use relative file path( 使 用 相对 文件 路 径 ): 如 果 选中 该 复 选 框 ， 则 使 用 相对 文件 路 
径 ， 而 不 是 绝对 文件 路 径 。 默 认为 取消 选中 。 


1. ArffSaver(ARFF 文件 保存 器 ) 


ArffSaver 写 入 的 目标 文件 是 ARFF 格式 的 文件 ， 数 据 可 以 用 gzip 压缩 ， 以 节省 空间 。 
其 配置 选项 说 明 如 下 。 


compressOutput( 压 缩 输出 ): 是 否 对 输出 数据 进行 压缩 。 默 认为 False。 
doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 说 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

ImaxDecimalPlaces( 最 大 十 进 制 位 数 ): 打印 数值 小 数 点 后 的 最 大 位 数 。 默 认为 6。 
useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


2. C45Saver(C45 文件 保存 器 ) 


C45Saver 写 入 的 目标 文件 格式 可 用 于 C4.5 算法 ， 因 此 输出 一 个 属性 名 称 文件 和 一 个 
数据 文件 。 
其 配置 选项 说 明 如 下 。 


doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 True， 则 不 检查 保存 器 的 能 力 。 说 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 
useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


3. CSVSaver(CSV 文件 保存 器 ) 

CSVSaver 写 入 的 目标 文件 是 CSV( 喜 号 分 隔 值 ) 格 式 的 文件 。 可 以 选择 列 分 隔 符 (默认 
为 “,”)， 也 可 以 选择 表示 缺失 值 的 符号 (默认 为 “?”)。 

其 配置 选项 说 明 如 下 。 


doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 说 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

fieldSeparator( 字 段 分 隔 符 ): 用 作 列 (或 字段 ) 分 隔 符 的 字符 ， 使 用 “\t” 表 示 制 表 
符 。 默 认为 “,”。 

ImaxDecimalPlaces( 最 大 十 进 制 位 数 ): 打印 数值 小 数 点 后 的 最 大 位 数 。 默 认为 6。 
missingValue( 缺 失 值 ): 缺失 值 的 占 位 符 。 默 认为 “?”。 

noHeaderRow( 无 标题 行 ): 如 果 为 True， 则 不 写 入 标题 行 。 默 认为 False。 
useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


4. DatabaseSaver( 数 据 库 保 存 器 ) 
DatabaseSaver 用 于 写 入 到 数据 库 中 。 已 经 测试 过 MySQL、InstantDB 和 HSQLDB 数 


据 库 。 


其 配置 选项 说 明 如 下 。 


Database URI (数据 库 URL): 数据 库 的 URL。 

Username( 用 户 名 ): 数据 库 用 户 名 。 

Password( 密 码 ): 数据 库 密码 。 

Table Name( 表 名 ): 数据 库 表 名 称 。 

Use relation name( 使 用 关系 名 称 ): 如 果 选 中 ， 则 关系 名 称 将 用 作 数 据 库 表 的 名 
了 你。 和 否则， 用 户 必须 提供 一 个 表 名 。 默 认为 选中 。 

Truncate Table( 截 断 表 ): 如 果 表 已 经 存在 ， 则 截断 ( 即 删除 并 重建 ) 表 。 默 认为 取 
消 选中 。 

Automatic primary key( 自 动 生成 主键 ): 如 果 选 中 ， 将 自动 生成 主键 列 (包含 
INTEGER 的 行 号 )。 主 键 名 称 从 配置 文件 的 idColumn 属性 中 读 出 ， 该 主键 可 用 于 
增 量 加 载 (需要 唯一 主键 )。 该 主键 不 会 加 载 为 一 个 属性 。 默 认为 取消 选中 。 

DB config props( 数 据 库 配 置 属性 ): 自 定 义 属性 ， 用 户 可 以 用 这 些 属性 来 蔡 代 默 
认 值 。 


5. JSONSaver(JSON 文件 保存 器 ) 


JSONSaver 写 入 的 目标 文件 是 JSON 格式 的 文件 。 数 据 可 以 用 gzip 压缩 ， 以 节省 空间 。 
其 配置 选项 说 明 如 下 。 


classIndex( 类 别 索 引 ): 设置 类 别 索引 ，“first” 和 “last” 都 是 有 效 值 。 
compressOutput( 压 缩 输出 ): 是 否 对 输出 数据 进行 压缩 。 默 认为 False。 
doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 谨 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝对 路 径 。 默 认为 


False。 


6. LibSVMSaver(LibSVM 文件 保存 器 ) 


LibSVMSaver 写 入 的 目标 文件 是 LibSVM 格式 的 文件 。 
其 配置 选项 说 明 如 下 。 


classIndex( 类 别 索 引 ): 设置 类 别 索引 ，“first” 和 “last” 都 是 有 效 值 。 
doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 True， 则 不 检查 保存 器 的 能 力 。 说 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 


7. MatlabSaver(Matlab 文件 保存 器 ) 


MatlabSaver 写 入 的 目标 文件 是 Matlab 的 ASCII 文件 ， 使 用 单 精 度 或 双 精 度 格式 。 
其 配置 选项 说 明 如 下 。 
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e@ ”doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 谨 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

e ”useDouble( 使 用 双 精 度 ): 是 否 使 用 双 精 度 ， 而 非 单 精 度 。 默 认为 False。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 
False。 


e ”useTabs( 使 用 制 表 符 ): 是 否 使 用 制 表 符 作为 分 隔 符 ， 而 非 空格 。 默 认为 False。 
8. SerializedlnstancesSaver( 序 列 化 实例 保存 器 ) 


SerializedInstancesSaver 用 于 序列 化 实例 到 输出 文件 ， 文 件 扩展 名 为 .bsi。 

其 配置 选项 说 明 如 下 。 

e@ ”doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 谨 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

e@ ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 
False。 

9. SVMLightSaver(SVMLight 文件 保存 器 ) 

SVMLightSaver 写 入 的 目标 文件 是 SVMLight 格式 的 文件 。 

其 配置 选项 说 明 如 下 。 

e@ classIndex( 类 别 索引 ): 设置 类 别 索引 ，“first” 和 “last” 都 是 有 效 值 。 

e@ ”doNotCheckCapabilities( 不 检查 能 力 )， 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 谨 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

e ”useRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 
False。 


10. XRFFSaver(XRFF 文件 保存 器 ) 
XRFFSaver 写 入 的 目标 文件 是 ARFF 格式 的 XML 版 本 文件 。 数 据 可 以 用 gzip 压缩 ， 


以 节省 空间 。 


其 配置 选项 说 明 如 下 。 

e@ classIndex( 类 别 索引 ): 设置 类 别 索引 ，“first” 和 “last” 都 是 有 效 值 。 

e ”compressOutput( 压 缩 输 出 ):， 是 否 对 输出 数据 进行 压缩 。 默 认为 False。 

e@ ”doNotCheckCapabilities( 不 检查 能 力 ): 如 果 为 Tme， 则 不 检查 保存 器 的 能 力 。 谨 
慎 使 用 以 减少 运行 时 间 。 默 认为 False。 

euseRelativePath( 使 用 相对 路 径 ): 是 否 使 用 相对 路 径 ， 而 非 绝 对 路 径 。 默 认为 


False。 
11. SerializedModelSaver( 序 列 化 模型 保存 器 ) 


SerializedModelSaver 用 于 将 训练 过 的 模型 保存 为 序列 化 对 象 文件 。 

其 配置 选项 说 明 如 下 。 

e ”File format( 文 件 格式 ): 目前 仅 支 持 二 进 制 序列 化 模型 文件 。 

e@ ”Incremental classifier save schedule( 增 量 分 类 器 保存 计划 ): 每 处 理 多 少 个 实例 后 保 
存 一 次 增 量 模 型 。 值 小 于 等 于 0 表示 只 在 流 结束 时 保存 。 默 认 值 为 0。 


e@ Include relation name in file name( 文 件 名 包含 关系 名 称 ): 是 否 将 训练 数据 的 关系 
名 称 包 含 在 序列 化 模型 的 文件 名 中 。 默 认为 取消 选中 。 
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12. TextSaver( 文 本 文件 保存 器 ) 识 
TextSaver 用 于 将 静态 文本 保存 或 添加 到 文件 中 。 殉 
面 


其 配置 选项 说 明 如 下 。 

e ”Filename( 文 件 名 ): 文件 名 称 。 

e@ ”Append to file( 追 加 到 文件 ): 如 果 选 中 该 复 选 框 ， 则 追加 到 文件 ， 而 不 是 新 建文 件 。 
默认 为 选中 。 


3.2.3 评估 器 
评估 器 一 共有 10 个 组 件 ， 其 中 有 4 个 组 件 不 需要 额外 配置 。 
1. TrainingSetMaker( 训 练 集 产生 器 ) 
TrainingSetMaker 用 于 接受 数据 集 输 入 ， 并 产生 训练 集 。 其 无 须 进 行 额外 配置 。 
2. TestSetMaker( 测 试 集 产生 器 ) 
TestSetMaker 用 于 接受 数据 集 输入 ， 并 产生 测试 集 。 其 无 须 进行 额外 配置 。 
3. CrossValidationFoldMaker( 交 叉 验证 折 产 生 器 ) 


CrossValidationFoldMaker 用 于 将 传 入 的 数据 集 拆 分 为 交叉 验证 的 折 。k 折 的 每 个 折 都 
产生 单独 的 训练 集 和 测试 集 。 

其 配置 选项 说 明 如 下 。 

e ”Folds( 折 数 ): 交叉 验证 的 折 数 。 默 认 值 为 10。 

e@ ”preserveOrder( 保 持 顺序 ): 设置 交叉 验证 是 否 要 保持 输入 实例 的 顺序 。 在 保持 顺 

序 的 情况 下 ， 不 能 使 用 随机 或 分 层 操 作 。 默 认为 False。 
e@ ”seed( 种 子 ): 随机 化 种 子 。 默 认 值 为 1。 
4. TrainTestSplitMaker( 训 练 集 测 试 集 拆 分 产生 器 ) 


TrainTestSplitMaker 用 于 将 传 入 的 数据 拆 分 为 单独 的 训练 集 和 测试 集 。 

其 配置 选项 说 明 如 下 。 

e@ trainPercent( 训 练 百分比 ): 数据 划分 到 训练 集 的 百分比 。 默 认 值 为 66.0。 

e “seed( 种 子 ): 随机 化 种 子 。 默 认 值 为 1。 

5. ClassAssigner( 分 类 分 配器 ) 

ClassAssigner 用 于 指定 输入 数据 中 的 哪个 列 作为 类 别 列 。 

其 配置 选项 说 明 如 下 。 

classColumn( 类 别 列 ): 指定 包含 类 别 属 性 的 列 索引 。 默 认为 last。 

6. ClassValuePicker( 类 别 值 选取 器 ) 

ClassValuePicker 用 于 指定 认为 是 positive( 正 例 ) 的 类 别 值 ， 适 用 于 ROC 风格 曲线 。 其 
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当前 不 可 定制 。 
7. ClassifierPerformanceEvaluator( 分 类 器 性 能 评估 器 ) 


ClassifierPerformanceEvaluator 用 于 评估 批量 训练 分 类 器 的 性 能 。 

其 配置 选项 说 明 如 下 。 

e@ ”errorPlotPointSizeProportionalToMargin( 下 比 于 边 距 的 误差 散 点 大 小 ): 设置 正比 于 
预测 分 类 错误 边 距 的 点 大 小 。 默 认为 False。 

e executionSlots( 执 行 槽 ): 设置 以 并 行 方式 运行 的 评估 任务 的 数量 。 默 认 值 为 2。 

e ”Evaluation metrics( 评 价 指标 ): 单 击 该 按钮 ， 会 弹出 Manage evaluation metrics( 管 
理 评价 指标 ) 对 话 框 。 默 认 选 中 全 部 评价 指标 。 


8. IncrementalClassifierEvaluator( 增 量 分 类 器 评估 器 ) 


IncrementalClassifierEvaluator 用 于 评估 增 量 训练 分 类 器 的 性 能 。 

其 配置 选项 说 明 如 下 。 

e ”chartingEvalWindowSize( 图 表 评 估 窗 口 大 小 ): 仅 用 于 绘制 图 表 ， 指 定 计算 性 能 统 
计 的 滑动 窗口 大 小 ， 单 位 为 最 近 处 理 的 实例 个 数 。 值 小 于 等 于 0 表示 不 使 用 窗 
口 ， 即 对 整个 流 进行 评估 。 默 认 值 为 0。 

e ”outputPerClassInfoRetrievalStats( 输 出 每 个 类 别 信 息 检索 的 统计 信息 ): 输出 每 个 类 
别 信息 检 索 的 统计 信息 。 如 果 设 置 为 True， 则 预测 得 以 保存 ， 这 样 可 以 计算 诸如 
AUC 的 统计 信息 ， 但 会 消耗 一 些 内 存 。 默 认为 False。 

e@ ”statusFrequency( 状 态 栏 频 度 ):， 每 处 理 多 少 个 实例 后 在 状态 栏 报告 一 次 进度 。 默 认 
值 为 2000。 


9. ClustererPerformanceEvaluator( 聚 类 器 性 能 评估 器 ) 


ClustererPerformanceEvaluator 用 于 评估 批量 训练 聚 类 器 的 性 能 。 其 无 须 进行 额外 
配置 。 


10. PredictionAppender( 预 测 追 加 器 ) 


PredictionAppender 用 于 接受 批量 或 增 量 分 类 器 的 事件 ， 并 产生 一 个 追加 分 类 器 预测 的 
新 数据 集 。 

其 配置 选项 说 明 如 下 。 

appendPredictedProbabilities( 追 加 预测 概率 ): 追加 概率 ， 而 不 是 预测 的 离散 类 别 标签 。 
默认 为 False。 


3.2.4 可视化 器 
可 视 化 器 一 共有 10 个 组 件 。 


1. DataVisualizer( 数 据 可 视 化 器 ) 


DataVisualizer 使 用 二 维 散 点 图 ， 对 输入 数据 集 、 训 练 集 或 测试 集 进行 可 视 化 。 它 允许 
用 户 配 置 离 屏 演 染 选项 。 高 屏 图 像 通 过 image 连接 传递 。 


其 配置 选项 说 明 如 下 。 

e@ ”Renderer( 泻 染 器 ): 只 可 选 Weka Chart Renderer(Weka 图 表演 染 器 )?。 

e X-axis attribute(X 轴 属 性 ): 用 于 绘制 离 屏 图 像 的 于 轴 的 属性 名 称 。 如 果 值 为 空 ， 
则 绘制 卫 轴 为 FPR( 假 阳性 率 ) 的 阔 值 曲线 。 

e ”Y-axis attribute( 了 轴 属 性 ): 用 于 绘制 离 屏 图 像 的 工 轴 的 属性 名 称 。 如 果 值 为 空 ， 
则 绘制 了 轴 为 TPR( 真 阳性 率 ) 的 阔 值 曲线 。 

e ”Chart width(pixels)( 图 表 宽 度 (像素 )): 图 表 宽 度 ， 以 像素 为 单位 。 默 认 值 为 500。 

e@ ”Chart height(pixels)( 图 表 高 度 (像素 )): 图 表 高 度 ， 以 像素 为 单位 。 默 认 值 为 400。 

e ”Renderer options( 泻 染 器 选项 ): 其 他 演 染 器 选项 。 


2. ScatterPlotMatrix( 散 点 图 矩阵 ) 

ScatterPlotMatrix 是 weka.gui.visualize.MatrixPanel 的 封装 类 ， 用 于 显示 散 点 图 矩阵 。 
其 无 须 进行 额外 配置 。 

3. AttributeSummarizer( 属 性 总 结 器 ) 


AttributeSummarizer 用 于 绘制 输入 数据 集 、 训 练 集 和 测试 集 的 总 结 条 形 图 。 配 置 界面 
允许 用 户 配 置 离 屏 演 染 选项 。 离 屏 图 像 通 过 image 连接 传递 。 

其 配置 选项 说 明 如 下 。 

e ”Renderer( 演 染 器 ): 只 可 选 Weka Chart Renderer(Weka 图 表演 染 器 )。 
Attribute to chart( 绘 制 属性 ): 要 绘制 的 属性 。 
Chart width(pixels)( 图 表 宽 度 (像素 )): 图 表 宽 度 ， 以 像素 为 单位 。 默 认 值 为 500。 
Chart height(pixels)( 图 表 高 度 (像素 )): 图 表 高 度 ， 以 像素 为 单位 。 默 认 值 为 400。 
Renderer options( 演 染 器 选项 ):， 其 他 泻 染 器 选项 。 


4. ModelPerformanceChart( 模 型 性 能 图 ) 


ModelPerformanceChart 用 于 可 视 化 模型 性 能 图 ， 如 ROC 曲线 。 它 允许 用 户 配 置 离 屏 
演 染 选项 。 离 屏 图 像 通过 image 连接 传递 。 

其 配置 选项 说 明 如 下 。 

@ ”Renderer( 演 染 器 ): 只 可 选 Weka Chart Renderer(Weka 图 表 泻 染 器 )。 

。 X-axis attribute(X 轴 属 性 ): 用 于 绘制 离 屏 图 像 的 蕊 轴 的 属性 名 称 。 如 果 值 为 空 ， 
则 绘制 筷 轴 为 FPR( 假 阳性 率 ) 的 阔 值 曲线 。 

e。e ”Y-axis attribute( 了 轴 属 性 ): 用 于 绘制 离 屏 图 像 的 工 轴 的 属性 名 称 。 如 果 值 为 空 ， 
则 绘制 了 轴 为 TPR( 真 阳性 率 ) 的 阔 值 曲线 。 

e ”Chart width(pixels)( 图 表 宽度 (像素 )): 图 表 宽 度 ， 以 像素 为 单位 。 默 认 值 为 500。 

e@ ”Chart height(pixels)( 图 表 高 度 (像素 )): 图 表 高 度 ， 以 像素 为 单位 。 默 认 值 为 400。 
Renderer options( 演 染 器 选项 ): 其 他 演 染 器 选项 。 


@ 如 果 使 用 包 管理 器 安装 jfreechartOffscreenChartRenderer 可 选 包 ， 除 默认 的 Weka Chart Renderer 外 ， 
Renderer 选项 还 可 选 下 reeChart Chart Renderer(JFreeChart 图 表演 染 器 )， 保 存 的 图 像 文 件 更 漂亮 一 些 。 
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5. CostBenefitAnalysis( 代 价 /收益 分 析 ) 
CostBenefitAnalysis 是 分 析 代价 /收益 权衡 的 辅助 Beaan， 支 持 交 互 式 的 代价 /收益 分 析 。 


其 无 须 进行 额外 配置 。 


6. TextViewer( 文 本 查看 器 ) 

TextViewer 是 收集 和 显示 文本 块 的 Bean。 其 无 须 进行 额外 配置 。 

7. GraphViewer( 图 形 查看 器 ) 

GraphViewer 是 weka.gui.treevisualize.TreeVisualizer 的 封装 类 ， 用 于 以 图 形 方式 可 视 


化 分 类 器 或 聚 类 器 产生 的 树 或 图 。 其 无 须 进行 额外 配置 。 


8. StripChart( 带 状 图 ) 
StripChart 可 使 用 水 平 滚动 带 状 图 可 视 化 增 量 分 类 器 的 性 能 。 


其 配置 选项 说 明 如 下 。 
erefreshFreq( 刷 新 频率 ):， 绘制 数据 点 的 频率 。 默 认 值 为 5， 即 每 经 过 5 个 数据 点 给 
制 一 次 。 


。 ”xLabelFreq(x 标签 频率 ): 显示 革 轴 标签 的 频率 。 默 认 值 为 500， 即 每 经 过 500 个 
数据 点 显示 一 次 了 轴 标 签 。 


9. ImageSaver( 图 像 保 存 器 ) 


ImageSaver 用 于 将 诸如 ModelPerformanceChart 组 件 产生 的 静态 图 像 保存 至 文件 。 
其 配置 选项 说 明 如 下 。 
Filename( 文 件 名 ): 图 像 文件 名 称 。 


10. ImageViewer( 图 像 查看 器 ) 
ImageViewer 可 以 接受 imageEvent 连接 ， 以 便 在 弹出 窗口 中 显示 静态 图 像 。 其 无 须 进 


行 额外 配置 。 
3.2.5 ”其 他 工具 


其 他 工具 一 共有 7 个 组 件 ， 前 3 个 在 Tools 条 目下 ， 后 4 个 在 Flow 条 目下 。 
1. Sorter( 排 序 器 ) 
Sorter 用 于 根据 用 户 指定 的 排序 属性 值 ， 将 输入 实例 进行 升序 或 降序 排序 。 实 例 可 以 


根据 定义 顺序 的 多 个 属性 进行 排序 。 处 理 数据 量 大 而 不 能 一 次 加 载 到 主 内 存 的 数据 集 时 ， 
可 以 通过 实例 连接 并 指定 内 存 缓冲 区 大 小 的 方式 实现 。 排 序 器 实现 合并 排序 ， 即 当 缓冲 区 
满 时 ， 将 内 存 缓冲 区 中 排序 好 的 数据 写 入 文件 中 ， 当 输入 流 处 理 完成 后 ， 从 磁盘 文件 中 交 
错 获取 实例 。 


其 配置 选项 说 明 如 下 。 
e Sort on attribute( 排 序 属性 ): 确定 按 哪 个 属性 进行 排序 。 
e@ ”Sort descending( 降 序 排序 ): yes 按 降序 排序 ，no 按 升 序 排序 。 默 认为 no。 


Size of in-mem streaming buffer( 流 缓冲 区 的 内 存 大 小 ): 流 缓冲 区 在 内 存 中 的 大 
小 。 默 认为 10000 字 节 。 
Directory for temp files( 临 时 文件 目录 ): 临时 文件 目录 。 


2. SubstringLabeler( 子 串 标签 器 ) 


SubstringLabeler 用 于 在 字符 串 型 属性 中 匹配 子囊 ， 可 以 使 用 文字 或 正则 表达 式 进行 匹 
配 。 设 置 一 个 新 属性 的 值 以 反映 匹配 的 状态 。 新 属性 可 以 是 二 元 属性 ， 其 值 表示 匹配 或 不 
匹配 ， 也 可 以 是 多 值 的 标 称 型 属性 ， 其 标签 必须 关联 某 个 不 同 的 匹配 规则 。 在 标签 匹配 的 


情形 下 ， 用 户 可 以 选择 将 不 匹配 的 实例 的 新 属性 设置 为 缺失 值 然后 输出 ， 或 是 根本 不 输出 
( 即 消耗 不 匹配 的 实例 )。 
其 配置 选项 说 明 如 下 。 


Apply to attributes( 应 用 到 属性 ): 指定 应 用 的 属性 名 称 。 

Match( 匹 配 ): 匹配 的 表达 式 。 

Label( 标 签 ): 标签 。 

Name of label attribute( 标 签 属性 的 名 称 ): 标签 属性 的 名 称 。 

Match using a regular expression( 使 用 正则 表达 式 匹配 ): 是 否 使 用 正则 表达 式 匹 
配 。 默 认为 取消 选中 。 

Ignore case when matching( 匹 配 时 忽略 大 小 写 ): 匹配 时 是 否 忽 略 大 小 写 。 默 认为 取 
消 选中 。 

Make binary label attribute nominal( 将 二 元 标签 作为 标 称 型 属性 )， 是 否 将 二 元 标签 
作为 标 称 型 属性 。 默 认为 取消 选中 。 

Consume non-matching instance( 消 耗 不 匹配 的 实例 ): 是 否 消耗 不 匹配 的 实例 。 默 认 
为 取消 选中 。 


3. SubstringReplacer( 子 串 替换 器 ) 


SubstringReplacer 用 于 替换 字符 串 型 属性 值 的 子囊 ， 可 以 使 用 文字 或 正则 表达 式 匹配 
并 替换 。 施 加 匹配 和 替换 规则 的 属性 可 以 通过 范围 字符 串 ( 如 “1-5,6,last”) 进 行 选择 ， 或 者 
通过 逗号 分 隔 的 属性 名 称 列表 (“first” 和 “last” 可 以 用 来 分 别 表示 第 一 个 和 最 后 一 个 属性 ) 
进行 选择 。 

其 配置 选项 说 明 如 下 。 


Apply to attributes( 应 用 到 属性 ): 指定 应 用 的 属性 名 称 。 

Match( 匹 配 ): 匹配 的 表达 式 。 

Label( 标 签 ): 标签 。 

Match using a regular expression( 使 用 正则 表达 式 匹 配 ): 是 否 使 用 正则 表达 式 
配 。 默 认为 取消 选中 。 

Jgnore case when matching( 匹 配 时 忽略 大 小 写 ): 匹配 时 是 否 忽略 大 小 写 。 默 认为 取 
消 选 中 。 


已 


4. Appender( 追 加 器 ) 


Appender 是 将 多 个 输入 数据 连接 追加 成 为 单个 数据 集 的 Bean。 输 入 连接 可 以 是 所 有 
的 增 量 实例 连接 ， 也 可 以 是 所 有 的 批量 ( 即 数 据 集 、 训 练 集 和 测试 集 ) 连 接 。 实 例 连 接 和 批 
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量 连接 不 能 混用 ， 合 并 的 输出 由 所 有 输入 属性 的 组 合 创建 。 缺 失 值 用 于 填充 某 个 特定 的 输 
入 数据 集中 不 存在 的 列 。 如 果 所 有 输入 连接 都 是 实例 连接 ， 那 么 输出 连接 必须 是 一 个 实例 
连接 ， 反 之 亦 然 。 其 无 须 进行 额外 配置 。 

5. FlowByExpression( 表 达 式 流 ) 


FlowByExpression 用 于 根据 逻辑 表达 式 的 估 值 拆 分 输入 的 实例 (或 实例 流 )。 表 达 式 可 
以 测试 一 个 或 多 个 输入 属性 的 值 ， 测 试 可 以 使 用 常量 ， 或 将 一 个 属性 与 男 一 个 属性 的 值 进 
行 比较 。 不 等 式 以 及 contains( 包 含 )、starts-with( 以 …… 开始 )、ends-with( 以 ……: 结束 ) 和 正 
则 表达 式 等 字符 串 操作 都 可 以 用 作 操 作 符 。 可 将 值 为 True 的 实例 发 送 到 一 个 下 游 工 序 ( 节 
点 )， 值 为 False 的 实例 发 送 到 另 一 个 工序 (节点 )。 


其 配置 选项 说 明 如 下 。 

@ Send true instances to node( 发 送 值 为 True 的 实例 到 节点 ): 将 值 为 True 的 实例 发 
送 到 的 连接 节点 的 名 称 。 

e ”Send false instances to node( 发 送 值 为 False 的 实例 到 节点 ): 将 值 为 False 的 实例 发 
送 到 的 连接 节点 的 名 称 。 

e@ ”Expression( 表 达 式 ): 表达 式 (使 用 内 部 格式 )。 

e Attribute( 属 性 ): 属性 。 

e ”Operator( 操 作 符 )， 操作 符 。 

e ”Constant or attribute( 常 量 或 属性 ): 常量 或 属性 。 

e RHS is attribute(RHS 为 属性 ): RHS(Right-Hand Side， 等 式 右 方 ) 操 作 数 是 否 为 属 


性 。 默 认为 取消 选中 。 
6. InstanceStreamToBatchMaker( 实 例 流转 批量 制造 器 ) 


JInstanceStreamToBatchMaker 是 将 实例 流转 换 成 批量 数据 集 的 Bean ， 和 
ReservoirSample( 水 库 抽样 ) 过 滤器 一 同 使 用 时 很 有 用 。 其 无 须 进 行 额外 配置 。 

7. Join( 连 接 ) 

Join 用 于 将 两 个 输入 数据 集 和 实例 流 进行 内 连接 (inner join)。 注 意 ， 这 里 假设 两 个 数 
据 集 都 将 关键 字段 按 升 序 排序 。 如 果 数 据 没 有 排序 ， 应 使 用 Sorter 组 件 将 二 者 按照 关键 字 
升序 排序 。 本 组 件 不 能 处 理 一 个 或 两 个 输入 中 主键 不 唯一 的 情形 。 

其 配置 选项 说 明 如 下 。 

e First input( 第 一 个 输入 ): 第 一 个 输入 。 

e ”Second input( 第 二 个 输入 ): 第 二 个 输入 。 


3.3 ”使 用 知识 流 组 件 


用 户 可 以 通过 配置 单个 组 件 ， 并 将 各 个 组 件 连接 起 来 以 构建 知识 流 。 图 3.6 展示 了 右 
击 不 同类 型 组 件 时 弹出 的 典型 快捷 菜单 。 

按照 功能 ， 可 将 菜单 分 为 如 下 三 类 : Edit( 编 辑 )、Connections( 连 接 ) 和 Actions( 动 作 )。 
Edit 操作 类 菜单 项 能 对 组 件 进行 简单 的 编辑 操作 ， 其 中 ，Delete( 删 除 ) 菜 单项 用 于 删除 组 


件 ; Set name( 设 置 名 称 ) 菜 单项 用 于 为 组 件 取 名 ; Configure( 配 置 ) 菜 单项 用 于 弹出 一 个 配置 
窗口 ， 以 配置 组 件 的 内 部 参数 。Connections 操作 类 菜单 项 用 于 连接 组 件 ， 包 括 的 菜单 项 有 
instance( 实 例 )、dataSet( 数 据 集 )、trainingSet( 训 练 集 )、testSet( 测 试 集 )、text( 文 本 )、 
graph( 图 )、batchClassifier( 批 量 分 类 器 )、incrementalClassifier( 增 量 分 类 器 ) 等 。 尽 管 这 些 连 
接 操作 的 类 别 较 多 ， 但 操作 都 是 一 样 的 ， 先 选择 源 组 件 的 连接 类 型 ， 然 后 单 击 目标 组 件 ， 
将 源 组 件 和 目标 组 件 连接 在 一 起 。Actions 操作 类 菜单 项 仅 用 于 特定 类 型 的 组 件 ， 例 如 ， 从 
数据 源 启动 加 载 数 据 ， 或 者 打开 一 个 窗口 以 显示 可 视 化 结果 。 
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图 3.6 ”知识 流 组 件 右键 快捷 菜单 


从 数据 源 出 来 的 连接 有 两 种 类 型 : dataSet( 数 据 集 ) 连 接 和 instance( 实 例 ) 连 接 。 前 者 为 
批量 操作 ， 如 J48 分 类 器 ;后 者 为 流 操作 ， 如 NaiveBayesUpdateable 组 件 。 一 个 数据 源 组 
件 不 能 同时 提供 这 两 种 类 型 的 连接 ， 一 旦 选中 某 种 类 型 ， 将 禁用 另 一 种 类 型 。 当 某 个 
dataSet 组 件 连 接 到 批量 分 类 器 时 ， 分 类 器 需要 知道 该 dataSet 组 件 提供 的 究竟 是 训练 集 数 
据 还 是 测试 集 数 据 。 要 做 到 这 一 点 ， 必 须 使 用 Evaluation 条 目下 的 TestSetMaker 组 件 或 
TrainingSetMaker 组 件 ， 这 两 个 组 件 分 别 将 数据 源 转化 为 测试 集 或 训练 集 。 

相对 而 言 ， 增 量 分 类 器 的 instance 连接 比较 直截了当 ， 对 于 增 量 分 类 器 来 说 ， 训 练 集 
和 测试 集 之 间 没 有 什么 区 别 ， 因 为 实例 流 以 增 量 方式 更 新 分 类 器 。 在 这 种 情况 下 ， 分 类 器 
根据 当前 分 类 模型 对 每 个 输入 实例 进行 预测 ， 并 纳入 测试 结果 ， 然 后 分 类 器 在 该 实例 上 进 
行 训练 并 更 新 模型 。 但 批量 分 类 器 则 不 同 ， 如 果 将 instance 连接 与 批量 分 类 器 相连 ， 
instance 连接 的 输出 将 会 作为 测试 实例 ， 因 为 批量 分 类 器 的 训练 不 能 增 量 进行 ， 而 测试 志 


省 册 8 没 全 由 本 


et 
20D 


副 酒 记 


@« 


@« 


数据 挖 所 与 机 器 学 习 
总 是 增 量 的 。 相 反 地 ， 在 批量 模式 下 使 用 dataSet 连接 来 测试 增 量 分 类 器 却 是 可 行 的 。 

当 组 件 接收 来 自 数据 源 的 输入 ， 就 启用 过 滤器 组 件 的 连接 ， 于 是 才能 使 用 后 续 的 
dataSet 或 instance 连接 。instance 连接 不 能 使 用 无 法 以 增 量 方式 处 理 数据 (如 Discretize) 
的 有 监督 过 滤器 或 无 监督 过 滤器 。 为 了 从 过 滤器 获取 测试 集 或 训练 集 ， 必 须 使 用 适当 的 过 
滤器 组 件 。 

分 类 器 菜单 有 两 种 类 型 的 连接 。 第 一 种 连接 类 型 为 graph( 图 形 ) 和 text( 文 本 ) 连 接 ， 以 
图 形 和 文字 方式 展示 了 分 类 器 的 学 习 状 态 ， 只 有 当 分 类 器 接收 到 训练 集 输 入 时 才 会 激活 。 
第 二 种 连接 类 型 为 batchClassifier( 批 量 分 类 器 ) 和 incrementalClassifier( 增 量 分 类 器 ) 连 接 ， 能 
为 性 能 评估 器 提供 数据 ， 只 有 为 分 类 器 提供 测试 集 输入 时 才 会 激活 。 根 据 分 类 器 的 类 型 ， 
决定 激活 连接 中 的 哪 一 个 。 

Evaluation 条 目 十 分 混杂 。TrainingSetMaker 组 件 和 TestSetMaker 组 件 将 数据 集 转化 成 
训练 集 或 测试 集 。CrossValidationFoldMaker 组 件 将 数据 集 拆 分 为 训练 集 和 测试 集 。 
ClassifierPerformanceEvaluator 组 件 为 可 视 化 组 件 产生 文本 和 图 形 输 出 。 其 他 评估 组 件 像 过 
滤器 一 样 操作 ， 根 据 输入 激活 后 续 的 dataSet、instance 、trainingSet 或 testSet 连接 ， 如 
ClassAssigner 组 件 为 数据 集 设 置 一 个 类 别 。InstanceStreamToBatchMaker 组 件 将 输入 流 实 
例 组 装 为 批量 数据 集 。 将 该 组 件 放 在 ReservoirSample 过 滤器 后 特别 管用 ， 它 允许 经 水 库 抽 
样 后 的 实例 输出 用 于 训练 批量 学 习 方 案 。 

如 果 没 有 运行 知识 流 ， 可 视 化 组 件 的 右键 快捷 菜单 中 只 有 部 分 组 件 (TextViewer、 
GraphViewer、ImageViewer 和 StripChart) 有 动作 部 分 的 菜单 项 ， 如 Show results( 显 示 结果 ) 
和 Clear results( 清 除 结果 )。 有 的 可 视 化 组 件 只 有 在 运行 知识 流 之 后 才 会 显示 动作 部 分 的 菜 
单项 ， 如 CostBenefitAnalysis 组 件 的 Show analysis 菜单 项 ， 以 及 AttributeSummarizer 组 件 
的 Show summaries 菜单 项 ， 等 等 。 如 果 在 右键 快捷 菜单 中 没有 找到 前 文 所 说 的 菜单 项 ， 记 
得 先 在 布局 区 域 中 设计 并 运行 知识 流 。 


3.4 手把手 教 你 用 


1. 使 用 视角 


启动 知识 流 界面 ， 单 击 位 于 界面 顶部 的 国 按 钮 ， 会 弹出 如 前 文 图 3.3 所 示 的 Manage 
Perspectives 对 话 框 ， 单 击 All 按钮 选中 全 部 三 个 视角 ， 然 后 再 单 击 OK 按钮 ， 会 发 现 知识 
流 界面 的 项 部 多 出 了 三 个 标签 。 

然后 ， 在 知识 流 界 面 左 侧 的 设计 面板 中 展开 DataSources( 数 据 源 ) 条 目 ， 并 选择 ArffLoader 
组 件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 件 
放置 在 布局 区 域 ， 在 布局 区 域 中 可 以 看 到 ArffLoader 图 标 出 现 ， 如 图 3.7 所 示 。 

下 一 步 ， 指 定 加 载 的 ARFF 文件 。 在 布局 区 域 中 的 ArffLoader 图 标 上 右 击 ， 在 弹出 的 
快捷 菜单 中 选择 Configure( 配 置 ) 菜 单项 ， 在 如 图 3.8 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 
览 定位 到 欲 加 载 的 ARFF 文件 位 置 ， 选 择 iris.arff 文件 。 图 3.8 所 示 对 话 框 下 部 有 一 个 
useRelativePath( 使 用 相对 路 径 ) 下 拉 列 表 框 ， 用 于 在 相对 路 径 和 绝对 路 径 之 间 切 换 。 单 击 
OK 按钮 关闭 对 话 框 。 
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3.7 放置 ArffLoader 组 件 


Reads a sourcethatisin arff (attribute relafon fleformabformat | Were | 
il 


Fileneme | \Tehe- 3-7\data\iris. erff [me 


other options 


etsinStringrals [edse 


asRalativepath | True 


图 3.8 浏览 定位 ARFF 文件 
在 布局 区 域 中 的 ArffLoader 图 标 上 再 次 右 击 ， 在 弹出 的 快捷 菜单 中 选择 Send to 
perspective( 发 送 至 视角 ) 菜 单项 ， 可 以 看 到 出 现 了 两 个 子 菜单 项 ， 第 一 个 是 Attribute 
summary( 属 性 总 结 )， 第 二 个 是 Scatter plot matrix( 散 点 图 矩阵 )， 如 图 3.9 所 示 。 分 别 选择 
这 两 个 子 菜单 项 发 送 到 两 个 视角 。 
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和 注意 : ”这 里 无 法 发 送 到 SQL Viewer(SQL 查看 器 ) 视 角 ， 是 因为 该 视角 只 是 访问 数据 库 
的 工具 ， 功 能 相对 独立 ， 具 体 使 用 可 参见 第 1 章 中 关于 SQL 查看 器 的 内 容 。 

单 击 Attribute summary 标签 ， 切 换 至 Attribute summary 标签 页 ， 如 图 3.10 所 示 ， 其 操 

作 与 探索 者 界面 完全 一 样 。 


3.10 _ Attribute summary 标签 页 


单 击 Scatter plot matrix 标签 ， 切 换 至 Scatter plot matrix 标签 页 ， 如 图 3.11 所 示 ， 其 操 
作 也 与 探索 者 界面 完全 一 样 。 
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3.11 ”Scatter plot matrix 标签 页 


2. 使 用 J48 交叉 验证 


本 示例 建立 一 个 采用 批 处 理 模式 加 载 ARFF 文件 的 数据 流 ， 并 使 用 J48 执行 交叉 验证 。 

可 以 单 击 右边 工具 栏 中 的 [ 国 按 钮 加 载 己 有 的 模板 。 如 果 不 知道 是 哪个 按钮 ， 可 将 鼠 
标 指针 依次 移 到 工具 栏 中 的 每 一 个 按钮 上 ， 并 暂停 数秒 ， 如 果 有 一 个 按钮 出 现 的 提示 是 
Load a template layout( 加 载 布 局 模板 )， 便 单 击 该 按钮 。 单 击 按钮 后 ， 在 弹出 的 菜单 中 选择 
Cross validation( 交 叉 验 证 ) 菜 单项 ， 就 会 加 载 如 图 3.12 所 示 的 交叉 验证 示例 。 
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3.12 ”Weka 自 带 的 交叉 验证 示例 


当然 ， 采 用 这 种 直接 加 载 示例 的 方式 得 不 到 什么 锻炼 。 建 议 将 它 关 闭 ， 自 己 手 工 一 步 
一 步 建立 ， 操 作 步 又 如 下 。 

首先 ， 在 知识 流 界 面 左 侧 的 设计 面板 中 展开 DataSources( 数 据 源 ) 条 目 ， 并 选择 
ArffLoader 组 件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 单 击 布局 面板 的 任意 位 置 ， 将 
ArffLoader 组 件 放置 在 布局 区 域 ， 在 布局 区 域 中 可 以 看 到 有 ArffLoader 图 标 出 现 。 

下 一 步 ， 指 定 加 载 的 ARFF 文件 。 在 布局 区 域 中 的 ArffLoader 图 标 上 右 击 ， 在 弹出 的 
快捷 菜单 中 选择 Configure( 配 置 ) 菜 单项 ， 在 弹出 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定位 
到 欲 加 载 的 ARFF 文件 位 置 ， 选 择 iris 数据 集 。 

下 一 步 ， 在 设计 面板 中 单 击 展开 Evaluation( 评 估 器 ) 条 目 ， 选 择 该 条 目下 的 
ClassAssigner 组 件 ， 该 组 件 用 于 设置 将 哪 一 列 作为 类 别 属性 ， 将 该 组 件 放置 在 布局 区 域 的 
任意 位 置 。 下 面 将 ArffLoader 组 件 连接 到 ClassAssigner 组 件 。 右 击 ArffLoader 组 件 ， 在 弹 
出 的 快捷 菜单 中 选择 dataSet( 数 据 集 ) 菜 单项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 
ClassAssigner 组 件 上 单 击 ， 就 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连 接 起 来 。 

下 一 步 ， 右 击 ClassAssigner 组 件 ， 在 弹出 的 快捷 菜单 中 
选择 Configure( 配 置 ) 菜 单项 。 这 时 将 弹出 一 个 对 话 框 ， 可 以 指 
定 将 哪个 列 作 为 数据 集 的 类 别 属性 ， 如 图 3.13 所 示 。 默 认 最 
后 一 列 是 类 别 属性 ， 在 本 例 中 ，class 列 为 最 后 一 列 ， 已 经 默 
认为 类 别 属性 ， 因 此 也 可 以 不 用 指定 。 

下 一 步 ， 在 设计 面板 中 选择 Evaluation 条 目下 的 。 图 3.13 选择 类 别 属性 
CrossValidationFoldMaker 组 件 ， 并 把 它 放 置 在 布局 区 域 。 右 
击 ClassAssigner 组 件 ， 在 弹出 的 快捷 菜单 中 选择 dataSet 菜单 项 ， 然 后 单间 
CrossValidationFoldMaker 组 件 ， 连 接 ClassAssigner 组 件 和 CrossValidationFoldMaker 组 件 。 

下 一 步 ， 在 设计 面板 中 单 击 展 开 Classifiers( 分 类 器 ) 条 目 ， 然 后 在 trees( 树 ) 子 条 目下 选择 
J48 组 件 ， 将 其 放置 在 布局 区 域 。 右 击 CrossValidationFoldMaker 组 件 ， 在 弹出 的 快捷 菜单 中 
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选择 trainingSet( 训 练 集 ) 菜 单项 ， 将 CrossValidationFoldMaker 组 件 连 接 到 J48 组 件 。 再 次 右 击 
CrossValidationFoldMaker 组 件 ， 在 弹出 的 快捷 菜单 中 选择 testSet( 测 试 集 ) 菜 单项 ， 将 
CrossValidationFoldMaker 组 件 连 接 到 J48 组 件 。 

下 一 步 ， 在 Evaluation 条 目下 选择 ClassifierPerformanceEvaluator 组 件 ， 放 置 在 布局 区 
域 中 。 右 击 J48 组 件 ， 在 弹出 的 快捷 菜单 中 选择 batchClassifier 菜单 项 ， 连 接 J48 组 件 和 
ClassifierPerformanceEvaluator 组 件 。 

最 后 ， 在 设计 面板 中 单 击 展开 Visualization( 可 视 化 器 ) 条 目 ， 选 择 TextViewer 组 件 并 
放置 到 布局 区 域 。 右 击 ClassifierPerformanceEvaluator 组 件 ， 在 弹出 的 快捷 菜单 中 选择 text 
菜单 项 ， 连 接 ClassifierPerformanceEvaluator 组 件 和 TextViewer 组 件 。 然 后 ， 选 择 并 放置 
Visualization 条 目下 的 GraphViewer 组 件 ， 右 击 J48 组 件 ， 在 弹出 的 快捷 菜单 中 选择 graph 
菜单 项 ， 连 接 J48 组 件 和 GraphViewer 组 件 。 

完成 上 述 全 部 步骤 后 ， 形 成 的 设计 图 如 图 3.14 所 示 。 建 议 保存 所 完成 的 工作 ， 步 又 
是 ， 单 击 上 日 按钮， 为 知识 流 取 名 为 48CV， 然 后 单 击 保存 按钮 。 


3.14 ”完成 后 的 设计 图 


单 击 工具 栏 中 的 运行 按钮 了 启动 流程 。 流 中 每 个 组 件 的 进度 信息 将 出 现在 窗口 底部 的 
状态 /日 志 面板 中 ， 如 图 3.15 所 示 。 


Paraneters 


Tr 


(C0.25 M2 


图 3.15 状态 /日 志 面板 


流程 执行 完成 后 ， 右 击 TextViewer 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show results( 显 示 
结果 ) 菜 单项 ， 可 以 查看 到 如 图 3.16 所 示 的 结果 。 

右 击 GraphViewer 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show results 菜单 项 ， 可 以 查看 
到 如 图 3.17 所 示 的 结果 。 实 际 上 这 是 十 折 交 叉 验 证 ， 每 折 作为 测试 集 的 运行 结果 ， 因 此 有 
10 条 结果 。 

单 击 图 3.17 中 的 任意 一 行 ， 会 出 现 类 似 于 图 3.18 所 示 的 决策 树 。 


图 3.17 图 形 输出 结果 图 3.18 决策 树 


如 果 还 想 看 到 散 点 图 以 及 错误 分 类 的 点 ， 可 以 放置 一 个 ModelPerformanceChart 组 件 
到 布局 区 域 ， 然 后 右 击 ClassifierPerformanceEvaluator 组 件 ， 在 弹出 的 快捷 菜单 中 选择 
visualizableError 菜单 项 ， 连 接 ClassifierPerformanceEvaluator 组 件 和 ModelPerformanceChart 
组 件 。 再 次 运行 后 ， 右 击 ModelPerformanceChart 组 件 ， 选 择 show chart( 显 示 图 ) 菜 单项 ， 
就 会 弹出 如 图 3.19 所 示 的 Model Performance Chart( 模 型 性 能 图 表 ) 窗 口 。 窗 口 操作 与 探索 
者 界面 类 似 ， 不 再 獒 述 。 


3.19 Model Performance Chart 窗口 
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3. 绘制 多 条 ROC 曲线 


知识 流 界面 可 以 在 同样 的 绘图 窗口 内 绘制 多 条 ROC 曲线 ， 以 比较 多 个 分 类 器 的 性 
能 ， 这 在 探索 者 界面 中 是 无 法 做 到 的 。 

本 例 使 用 J48 和 RandomForest 作为 分 类 器 ， 然 后 自己 手工 一 步 一 步 建立 多 ROC 曲线 
示例 ， 操 作 步 又 如 下 。 

首先 ， 在 知识 流 界面 左 侧 的 设计 面板 中 展开 DataSources 条 目 ， 并 选择 ArffLoader 组 
件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 件 放置 
在 布局 区 域 ， 在 布局 区 域 中 可 以 看 到 ArffLoader 图 标 出 现 。 然 后 ， 指 定 加 载 的 ARFF 文 
件 。 在 布局 区 域 中 的 ArffLoader 图 标 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 Configure( 配 置 ) 菜 
单项 ， 在 如 前 面 图 3.8 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定位 到 欲 加 载 的 ARFF 文件 
位 置 ， 本 例 定位 到 data 目录 并 选择 ionosphere.arff 数据 集 。 

下 一 步 ， 在 设计 面板 中 单 击 展 开 Evaluation 条 目 ， 选 择 该 条 目下 的 ClassAssigner 组 
件 ， 该 组 件 用 于 设置 将 哪 一 列 作为 类 别 属性 ， 将 该 组 件 放置 在 布局 区 域 的 任意 位 置 。 下 面 
将 ArffLoader 组 件 连接 到 ClassAssigner 组 件 。 右 击 ArffLoader 组 件 ， 在 弹出 的 快捷 菜单 了 
选择 dataSet( 数 据 集 ) 菜 单项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 
上 单 击 ， 就 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连接 起 来 。 

下 一 步 ， 右 击 ClassAssigner 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Configure 菜单 项 。 在 弹 
出 的 对 话 框 中 指定 将 哪个 列 作为 数据 集 的 类 别 属性 ， 默 认 最 后 一 列 是 类 别 属性 。 

下 一 步 ， 在 Evaluation 条 目下 选择 ClassValuePicker 组 件 ， 该 
组 件 用 于 设置 将 哪 一 个 类 别 值 用 于 ROC 评估 。 将 组 件 放 置 在 布局 © | wm 
区 域 ， 右 击 ClassAssigner 组 件 ， 在 弹出 的 快捷 菜单 中 选择 dataSet Sem desma 
菜单 项 ， 将 ClassAssigner 组 件 与 ClassValuePicker 组 件 相连 接 。 然 
后 右 击 ClassValuePicker 组 件 ， 在 弹出 的 快捷 菜单 中 选择 
Configure 菜单 项 ， 在 弹出 的 如 图 3.20 所 示 的 对 话 框 中 设置 类 别 值 3.20 ”选择 类 别 值 
为 g。 

下 一 步 ， 在 设计 面板 中 的 Evaluation 条 目下 选择 CrossValidationFoldMaker 组 件 ， 并 把 
它 放置 在 布局 区 域 。 右 击 ClassValuePicker 组 件 ， 在 弹出 的 快捷 菜单 中 选择 dataSet 菜单 
项 ， 然 后 单 击 CrossValidationFoldMaker 组 件 ， 连 接 ClassValuePicker 组 件 和 
CrossValidationFoldMaker 组 件 。 

下 一 步 ， 在 设计 面板 中 单 击 展开 Classifiers 条 目 ， 并 在 trees 子 条 目下 选择 J48 组 件 ， 
将 该 组 件 放置 在 布局 区 域 。 然 后 ， 在 CrossValidationFoldMaker 组 件 上 右 击 ， 在 弹出 的 快 
捷 式 菜单 中 选择 trainingSet 菜单 项 ， 将 CrossValidationFoldMaker 组 件 连接 到 J48 组 件 。 再 
次 右 击 CrossValidationFoldMaker 组 件 ， 在 弹出 的 快捷 菜单 中 选择 testSet 菜单 项 ， 将 
CrossValidationFoldMaker 组 件 连接 到 J48 组 件 。 

重复 上 述 最 后 一 个 步骤 ， 只 不 过 将 J48 组 件 换 成 RandomForest 分 类 器 组 件 。 

下 一 步 ， 回 到 Evaluation 条 目 ， 将 一 个 ClassifierPerformanceEvaluator 组 件 放置 到 布局 
区 域 。 在 J48 组 件 的 右键 快捷 菜单 中 选择 batchClassifier 菜单 项 ， 连 接 J48 组 件 与 
ClassifierPerformanceEvaluator 组 件 。 再 将 另 一 个 ClassifierPerformanceEvaluator 组 件 放置 到 
布局 区 域 ， 同 样 通过 batchClassifier 菜单 项 连接 RandomForest 组 件 与 
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ClassifierPerformanceEvaluator 组 件 。 
下 一 步 ， 将 Visualization 条 目下 的 ModelPerformanceChart 组 件 放置 到 布局 区 域 。 分 别 


在 两 个 ClassifierPerformanceEvaluator 组 件 的 右键 快捷 菜单 中 选择 thresholdData 菜单 项 ， 
将 两 个 ClassifierPerformanceEvaluator 组 件 与 ModelPerformanceChart 组 件 分 别 相连 接 。 
最 后 ， 将 Visualization 条 目下 的 TextViewer 组 件 放 置 到 布局 区 域 。 分 别 在 两 
个 ClassifierPerformanceEvaluator 组 件 的 右键 快捷 菜单 中 选择 text 菜单 项 ， 将 两 个 
ClassifierPerformanceEvaluator 组 件 与 TextViewer 组 件 分 别 相连 接 。 
绘制 并 调整 后 的 多 条 ROC 曲线 知识 流 如 图 3.21 所 示 。 
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3.21 多 条 ROC 曲线 知识 流 


在 工具 栏 中 单 击 运行 按钮 启动 流程 。 数 据 流 中 每 个 组 件 的 进度 信息 将 出 现在 窗口 底部 
的 状态 /日 志 面 板 中 。 

右 击 ModelPerformanceChart 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show chart 菜单 项 。 弹 
出 如 图 3.22 所 示 的 多 条 ROC 曲线 。 曲 线 右边 的 图 例 显示 ， 用 符号 “x ”绘制 的 曲线 为 
RandomForest 分 类 器 的 ROC， 用 符号 “+” 绘 制 的 曲线 为 J48 分 类 器 的 ROC。 比 较 一 下 ， 
不 难看 出 RandomForest 的 ROC 曲线 都 在 J48 的 ROC 曲线 的 上 方 ， 由 于 本 例 的 
RandomForest 分 类 模型 尽 可 能 靠近 ROC 图 的 左上 角 ， 因 此 优 于 J48。 
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图 3.22 多 条 ROC 曲线 
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数据 挖 所 与 机 器 学 习 
右 击 TextViewer 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show results 菜单 项 ， 会 弹出 如 图 3.23 
所 示 的 Text Viewer( 文 本 查看 器 ) 窗 口 。 对 照 两 个 分 类 器 的 性 能 ， 可 知 RandomForest 分 类 器 
的 准确 率 为 92.5926%，J48 分 类 器 的 准确 率 为 91.453%， 也 证 实 了 本 例 RandomForest 优 于 
J48 的 结论 。 


3.23 ”Text Viewer 窗口 


4. 集成 学 习 器 比较 

在 第 2 章 的 “集成 学 习 ” 部 分 中 ， 已 经 介绍 了 三 种 集成 学 习 的 方法 。 本 例 试 图 对 
Bagging、AdaBoostingM1 以 及 RandomForest 进行 性 能 比较 ， 并 使 用 J48 分 类 器 作为 参 
照 。 为 了 公平 起 见 ， 使 用 尽 可 能 多 的 数据 集 ， 只 要 满足 类 别 属性 为 标 称 型 即 可 。 

首先 ， 在 知识 流 界 面 左 侧 的 设计 面板 中 展开 DataSources 条 目 ， 并 选择 ArffLoader 组 
件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 件 放 置 
在 布局 区 域 ， 在 布局 区 域 中 可 以 看 到 ArffLoader 图 标 出 现 。 然 后 ， 指 定 加 载 的 ARFF 文 
件 。 在 布局 区 域 中 的 ArffLoader 图 标 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 Configure 菜单 
项 ， 在 如 前 面 图 3.8 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定位 到 欲 加 载 的 ARFF 文件 位 
置 ， 本 例 定位 到 data 目录 并 选择 breast-cancer.arff 数据 集 。 

下 一 步 ， 在 设计 面板 中 单 击 展开 Evaluation 条 目 ， 选 择 该 条 目下 的 ClassAssigner 组 
件 ， 该 组 件 用 于 设置 将 哪 一 列 作 为 类 别 属性 ， 将 该 组 件 放 置 在 布局 区 域 的 任意 位 置 。 下 面 
将 ArffLoader 组 件 连接 到 ClassAssigner 组 件 。 右 击 ArffLoader 组 件 ， 选 择 右键 快捷 菜单 中 
的 dataSet 菜单 项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 上 单 击 ， 
就 会 看 到 一 条 标记 为 dataSet 的 红线 将 这 两 个 组 件 连 接 起 来 。 
下 一 步 ， 右 击 ClassAssigner 组 件 ， 并 在 右键 快捷 菜单 中 选择 Configure 菜单 项 ， 在 弹 
出 的 对 话 框 中 指定 将 哪 一 列 作 为 数据 集 的 类 别 属性 ， 默 认 最 后 一 列 是 类 别 属性 。 由 于 
Weka 自 带 数据 集中 除 回 归 问 题 外 都 满足 这 一 点 ， 因 此 这 一 步 可 以 不 用 指定 类 别 属性 。 
下 一 步 ， 在 设计 面板 中 的 Evaluation 条 目下 选择 CrossValidationFoldMaker 组 件 ， 并 把 
它 放置 在 布局 区 域 。 右 击 ClassAssigner 组 件 ， 选 择 右键 快捷 菜单 中 的 dataSet 菜单 项 ， 然 
后 单 击 CrossValidationFoldMaker 组 件 ， 连 接 ClassAssigner 组 件 和 CrossValidationFoldMaker 
组 件 。 

下 一 步 ， 在 设计 面板 中 单 击 展开 Classifiers 条 目 ， 并 在 trees 子 条 目下 选择 J48 组 件 ， 
将 该 组 件 放置 在 布局 区 域 。 然 后 ， 在 CrossValidationFoldMaker 组 件 上 右 击 ， 在 弹出 的 快 


捷 菜 单 中 选择 trainingSet 菜单 项 ， 将 CrossValidationFoldMaker 组 件 连接 到 J48 组 件 。 再 次 
右 击 CrossValidationFoldMaker 组 件 ， 在 弹出 的 快捷 菜单 中 选择 testSet 菜单 项 ， 将 
CrossValidationFoldMaker 组 件 连接 到 J48 组 件 。 

重复 上 述 步 又 三 次 ， 只 不 过 依次 将 J48 组 件 换 成 Bagging 组 件 、AdaBoostingM1 组 件 
和 RandomForest 组 件 。 然 后 双击 集成 学 习 器 ， 将 Bagging 组 件 和 AdaBoostingM1 组 件 的 
基 分 类 器 设置 为 J48。 

下 一 步 ， 回 到 Evaluation 条 目 ， 将 一 个 ClassifierPerformanceEvaluator 组 件 放 置 到 布局 
区 域 。 在 J48 组 件 的 右键 快捷 菜单 中 选择 batchClassifier 菜单 项 ， 连 接 J48 组 件 与 
ClassifierPerformanceEvaluator 组 件 。 重 复 上 述 步骤 三 次 ， 只 不 过 依次 将 J48 组 件 换 成 
Bagging 组 件 、 AdaBoostingM1 组 件 和 RandomForest 组 件 ， 分 别 与 三 个 
ClassifierPerformanceEvaluator 组 件 相 连接 。 

最 后 ， 将 Visualization 条 目下 的 TextViewer 组 件 放 置 到 布局 区 域 ， 分 别 在 四 个 
ClassifierPerformanceEvaluator 组 件 的 右键 快捷 菜单 中 选择 text 菜单 项 ， 将 四 个 
ClassifierPerformanceEvaluator 组 件 分 别 与 TextViewer 组 件 相 连接 。 

绘制 并 调整 后 的 集成 学 习 器 比较 知识 流 如 图 3.24 所 示 。 
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图 3.24 ”集成 学 习 器 比较 知识 流 
在 工具 栏 中 单 击 运行 按钮 启动 流程 。 流 中 每 个 组 件 的 进度 信息 将 出 现在 窗口 底部 的 状 


态 /日 志 面 板 中 。 
右 击 TextViewer 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show results 菜单 项 ， 会 弹出 如 图 3.25 
所 示 的 Text Viewer 窗口 。 对 照 四 个 分 类 器 的 性 能 ， 这 里 只 考查 正确 分 类 的 准确 率 ， 将 结果 
填 入 表 3.1 中 。 

现在 ， 依 次 对 其 他 多 个 数据 集 进行 测试 。 操 作 步 又 是 : 右 击 TextViewer 组 件 ， 在 弹出 
的 快捷 菜单 中 选择 Clear results 菜单 项 清除 结果 ， 然 后 双击 ArffLoader 组 件 ， 选 择 加 载 其 
他 ARFF 文件 。 最 后 ， 运 行 、 查 看 结果 并 将 结果 填 入 表 3.1 中 。 

为 了 更 好 地 研究 四 种 分 类 器 的 分 类 准确 度 ， 绘 制 出 其 分 类 准确 率 的 柱 形 图 ， 如 图 3.26 
所 示 。 从 图 3.26 中 可 以 看 出 ，J48 是 很 优秀 的 分 类 器 ， 大 部 分 情况 下 集成 学 习 器 会 比 作为 
基 分 类 器 的 J48 性 能 更 好 ， 但 是 ， 也 有 上 比 基 分 类 器 更 差 的 情况 出 现 。 
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图 3.25 四 个 分 类 器 的 性 能 
表 3.1 四 个 分 类 器 的 分 类 准确 率 比较 ” 


| 数据 集 | vs8 | Bagging | AdaBoosingw1 | RandomForest 


序 


15.5245% 


73.7762% 69.5804% 69.2308% 


contact-lenses.arff 83.3333% 70.8333% 70.8333% 
70.5000% 73.3000% 69.6000% 73.0000% 


66.8224% 74.2991% 74.2991% 74.2991% 
91.4530% 92.8775% 93.1624% 92.8775% 


94.6667% 94.6667% 


93.3333% 95.3333% 

89.4737% 87.7193% 
10 97.4667% 96.6667% 
1 92.82580% 91.2152% 
12 98.59810% 98 3645% 
1 95.86210% 96.3218% 
14 71.4286% 57.1429% 
15 71.4286% 35.7143% 


5. 处 理 增 量 数据 


号 

1 

2 

3 

4 72.3958% 74.3490% 
5 

6 
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Weka 的 一 些 分 类 器 、 聚 类 器 和 过 滤器 可 以 采用 流 方式 进行 数据 的 增 量 处 理 。 本 例 就 
将 增 量 地 训练 和 测试 朴素 贝 叶 斯 学 习 方 案 。 其 结果 会 发 送 到 TextViewer 组 件 ， 性 能 预测 则 
由 StripChart( 带 状 图 ) 组 件 动态 作 图 。 具 体 步 骤 如 下 。 

首先 ， 在 知识 流 界 面 左 侧 的 设计 面板 中 展开 DataSources 条 目 ， 并 选择 ArffLoader 组 
件 ， 这 时 鼠标 指针 会 变 成 “十 ”字形 。 单 击 布局 面板 的 任意 位 置 ， 将 ArffLoader 组 件 放置 
在 布局 区 域 ， 在 布局 区 域 中 可 以 看 到 ArffLoader 图 标 出 现 。 然 后 ， 指 定 加 载 的 ARFF 文 


件 。 在 布局 区 域 中 的 ArffLoader 图 标 上 右 训 


Q@ 本 表 中 RandomForest 的 运行 结果 与 本 书 第 1 版 和 


Ff， 在 弹出 的 快捷 菜单 中 选择 Configure 菜单 


1 不 一 致 ， 这 是 因为 Weka 3.7.13 改动 了 RandomForest 


算法 ， 具 体 见 CHANGELOG _ PACKAGES-3-7-13。 本 书 按照 实际 运行 结果 做 了 更 改 。 


项 ， 在 如 前 面 图 3.8 所 示 的 对 话 框 中 单 击 Browse 按钮 ， 浏 览 定位 到 欲 加 载 的 ARFF 文件 位 
置 ， 本 例 定位 到 data 目录 并 选择 segment-challenge.arff 数据 集 。 
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3.26 ”四 个 分 类 器 的 分 类 准确 率 柱 形 图 
下 一 步 ， 在 设计 面板 中 单 击 展开 Evaluation 条 目 ， 选 择 该 条 目下 的 ClassAssigner 组 


件 ， 该 组 件 用 于 设置 将 哪 一 列 作为 类 别 属性 ， 将 该 组 件 放置 在 布局 区 域 的 任意 位 置 。 下 面 
将 ArffLoader 组 件 连接 到 ClassAssigner 组 件 。 右 击 ArffLoader 组 件 ， 选 择 右键 快捷 菜单 中 
的 instance( 实 例 ) 菜 单项 ， 会 出 现 一 条 橡皮 筋 线 ， 将 鼠标 指针 移动 到 ClassAssigner 组 件 上 单 
击 ， 就 会 看 到 一 条 标记 为 instance 的 红线 将 这 两 个 组 件 连接 起 来 。 

下 一 步 ， 右 击 ClassAssigner 组 件 ， 并 在 右键 快捷 菜单 中 选择 Configure 菜单 项 。 在 弹 
出 的 对 话 框 中 指定 将 哪 一 列 作 为 数据 集 的 类 别 属性 ， 默 认 最 后 一 列 是 类 别 属性 。 

下 一 步 ， 在 设计 面板 中 单 击 展开 Classifiers 条 目 ， 并 在 bayes 子 条 目下 选择 
NaiveBayesUpdateable 组 件 ， 将 该 组 件 放置 在 布局 区 域 。 然 后 ， 在 ClassAssigner 组 件 上 右 
击 ， 在 弹出 的 快捷 菜单 中 选择 instance 选项 ， 将 ClassAssigner 组 件 连 接 到 
NaiveBayesUpdateable 组 件 。 

下 一 步 ， 回 到 Evaluation 条 目 ， 将 一 个 IncrementalClassiferEvaluator 组 件 放 置 到 布局 区 
域 。 在 NaiveBayesUpdateable 组 件 的 右键 快捷 菜单 中 选择 incrementalClassifier 菜单 项 ， 连 
接 NaiveBayesUpdateable 组 件 与 IncrementalClassiferEvaluator 组 件 。 

下 一 步 ， 将 Visualization 条 目下 的 TextViewer 组 件 放 置 到 布局 区 域 。 右 击 
IncrementalClassifierEvaluator 组 件 ， 在 右键 快捷 菜单 中 选择 text 菜单 项 ， 
IncrementalClassifierEvaluator 组 件 与 TextViewer 组 件 相 连接 。 

最 后 ， 将 Visualization 条 目下 的 StripChart 组 件 放置 到 布局 区 域 。 右 击 
IncrementalClassifierEvaluator 组 件 ， 在 右键 快捷 菜单 中 选择 chart 菜单 项 ， 将 
IncrementalClassifierEvaluator 组 件 与 StripChart 组 件 相 连接 。 

绘制 并 调整 后 的 处 理 增 量 数据 的 知识 流 如 图 3.27 所 示 。 
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图 3.27 ”处理 增 量 数据 的 知识 流 


在 启动 流程 之 前 ， 一 定 要 记得 先 显示 Strip Chart 图 表 ， 否 则 看 不 到 动态 显示 的 结果 。 
操作 步骤 为 : 右 击 StripChart 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show chart 菜单 项 ， 此 时 就 
会 弹出 一 个 始终 显示 在 顶层 的 Strip Chart 图 表 。 

在 工具 栏 中 单 击 运 行 按钮 启动 流程 。 注 意 观 察 Strip Chart 图 表 的 变化 ， 最 终 的 Strip 
Chart 图 表 如 图 3.28 所 示 。 
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图 3.28 Strip Chart 图 表 


图 3.28 中 共有 三 条 曲线 ， 绿 线 (最 上 面 一 根 曲线 ) 表 示 准 确 率 ， 红 线 (最 下 面 一 根 曲 线 ) 
表示 RMSE( 均 方 根 误差 )， 蓝 线 ( 中 间 的 一 根 曲线 ， 靠 近 绿 线 ) 表 示 Kappa 指标 。 绿 线 和 蓝 线 
都 是 越 接近 1 越 好 ， 即 越 大越 好 ， 而 红线 则 是 越 接近 0 越 好 ， 即 越 小 越 好 。 


3 注意 : ”在 本 例 中 使 用 的 朴素 贝 叶 斯 分 类 器 先 和 要 预测 每 个 输入 的 实例 ， 然 后 再 训练 (更 
新 ) 分 类 器 。 因 此 ， 在 刚 开始 的 时 候 ， 由 于 输入 实例 很 少 ， 分 类 器 的 性 能 很 
差 ， 但 随 着 输入 实例 的 逐渐 增加 ， 分 类 器 得 到 更 多 的 训练 ， 其 性 能 逐步 提高 
直至 稳定 。 
接 下 来 学 习 StripChart 组 件 的 选项 配置 。 关 闭 Strip Chart 图 表 ， 双 击 布局 区 域 中 的 
StripChart 组 件 ， 在 弹出 的 对 话 框 中 将 refreshFreq 选项 由 默认 的 5 修改 为 2， 将 xLabelFreq 
选项 由 默认 的 500 修改 为 250， 如 图 3.29 所 示 。 


StripChartCustomizer 
About 


Visualize incremei ntal classifier performance as a scrolling plot | More 


refreshfreq 此 


xLabelFreq |250| 


图 3.29 修改 StripChart 选项 


然后 重新 运行 ， 所 显示 的 Strip Chart 图 表 如 图 3.30 所 示 。 可 见 ，refreshFreq 选项 控制 
绘制 数据 点 的 频率 ， 降 低 refreshFreq 的 值 ， 意 味 着 拉 长 时 间 轴 (X 轴 ); xLabelFreq 选项 控 
制 对 轴 上 显示 标签 的 频率 ， 降 低 xLabelFreq 的 值 ， 意 味 着 在 蕊 轴 每 隔 更 短 一 段 距离 就 显示 
一 个 标签 。 


3.30 ”重新 运行 后 得 到 的 Strip Chart 图 表 


最 后 ， 右 击 TextViewer 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show results 菜单 项 ， 就 会 弹 
出 如 图 3.31 所 示 的 结果 。 


3.31 TextViewer 结果 


6. 保存 图 表 

从 Weka 3.7.5 版 本 开始 ， 就 支持 创建 和 保存 图 表 ， 如 散 点 图 、 属 性 柱状 图 、 误 差 曲 线 
图 、ROC 曲线 等 。 可 以 使 用 Weka 的 内 建 图 表 ， 也 可 以 使 用 下 reeChart 库 或 可 选 包 ， 例 
如 ， 使 用 包 管 理 器 安装 jfreechartOffscreenChartRenderer 可 选 包 ， 且 选择 JFreeChart Chart 
Renderer 渔 染 器 ， 可 以 保存 更 漂亮 的 图 表 文 件 。 

本 次 实践 使 用 两 个 示例 ， 第 一 个 示例 打开 数据 集 ， 保 存单 个 属性 的 可 视 化 图 像 和 双 属 
性 的 散 点 图 ; 第 二 个 示例 保存 分 类 器 的 ROC 曲线 图 和 误差 散 点 图 。 

第 一 个 示例 的 操作 步骤 如 下 。 

首先 ， 将 一 个 ArffLoader 组 件 放置 在 布局 区 域 ， 然 后 双击 布局 区 域 中 的 ArffLoader 图 
标 ， 选 择 加 载 iris.arff 数据 集 。 下 一 步 ， 将 一 个 AttributeSummarizer 组 件 放置 在 布局 区 
域 ， 选 择 dataSet 连接 ArffLoader 组 件 和 AttributeSummarizer 组 件 ; 双击 
AttributeSummarizer 组 件 ， 将 Attribute to chart 选项 设置 为 sepalwidth， 以 可 视 化 花 苯 宽 。 
下 一 步 ， 将 一 个 ImageSaver 组 件 放置 在 布局 区 域 ， 选 择 image 连接 AttributeSummarizer 组 
件 和 ImageSaver 组 件 ， 双击 ImageSaver 组 件 并 设置 Filename 选项 ， 这 里 将 其 设置 为 Weka 
安装 目录 下 的 output\AttributeSummary。 下 一 步 ， 将 一 个 DataVisualizer 组 件 放 置 在 布局 区 
域 ， 选 择 dataSet 连接 ArffLoader 组 件 和 DataVisualizer 组 件 ， 双 击 DataVisualizer 组 件 ， 
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将 X-axis attribute 选项 设置 为 sepallength( 花 苯 长 )， 将 Y-axis attribute 选项 设置 为 
petalwidth( 花 办 宽 )。 下 一 步 ， 再 次 将 一 个 ImageSaver 组 件 放置 在 布局 区 域 (ImageSaver2)， 
选择 image 连接 DataVisualizer 组 件 和 ImageSaver2 组 件 ， 双击 ImageSaver2 组 件 并 设置 
Filename 选项 ， 这 里 将 其 设置 为 Weka 安装 目录 下 的 output\DataVisualize。 


按 以 上 步骤 绘制 并 调整 后 的 可 视 化 数据 集 的 知识 流 如 图 3.32 所 示 。 


3.32 可视化 数据 集 的 知识 流 


在 工具 栏 中 单 击 运行 按钮 启动 流程 。 在 Windows 资源 管理 器 中 可 以 看 到 保存 的 两 个 
图 像 文件 ， 如 图 3.33 所 示 。 本 实验 能 够 保存 单个 属性 的 图 像 和 双 属 性 的 散 点 图 ， 结 果 符 


合 预期 。 


图 3.33 ”保存 后 的 图 像 文 件 


第 二 个 示例 的 操作 步骤 如 下 。 


首先 ， 将 一 个 ArffLoader 组 件 放置 在 布局 区 域 ， 然 后 双击 布局 区 域 中 的 ArffLoader 图 
标 ， 选 择 加 载 ionosphere.arff 数据 集 。 下 一 步 ， 将 一 个 ClassAssigner 组 件 放 置 在 布局 区 


域 ， 并 用 dataSet 连接 将 ArffLoader 组 件 与 ClassAssigner 组 件 相连 。 


下 一 步 ， 将 一 个 


ClassValuePicker 组 件 放置 在 布局 区 域 ， 并 用 dataSet 连接 将 ClassAssigner 组 件 与 


ClassValuePicker 组 件 相 连 ; 双击 ClassValuePicker 组 件 ， 设 置 类 别 值 为 


g。 下 一 步 ， 将 一 


个 CrossValidationFoldMaker 组 件 放 置 在 布局 区 域 ， 并 用 dataSet 连接 将 ClassValuePicker 
组 件 与 CrossValidationFoldMaker 组 件 相 连 。 下 一 步 ， 将 一 个 NaiveBayes 组 件 放置 在 布局 
区 域 ， 并 用 trainingSet 连接 和 testSet 连接 将 CrossValidationFoldMaker 组 件 与 NaiveBayes 


组 件 相连 。 下 一 步 ， 将 一 个 ClassifierPerformanceEvaluator 组 件 放 置 在 


E 布 局 区 域 ， 并 用 


batchClassifier 连接 将 NaiveBayes 组 件 与 ClassifierPerformanceEvaluator 组 件 相 连 。 下 一 


步 ， 将 两 个 ModelPerformanceChart 组 件 放置 在 布局 区 域 ， 用 thresholdData 连接 将 
ClassifierPerformanceEvaluator 组 件 与 ModelPerformanceChart 组 件 相 连 ， 用 
visualizableError 连接 将 ClassifierPerformanceEvaluator 组 件 与 ModelPerformanceChart 2 组 
件 相连 ， 双 击 ModelPerformanceChart2 组 件 ， 将 X-axis attribute 选项 设置 为 a13， 将 Y-axis 
attribute 选项 设置 为 a17。 下 一 步 ， 将 两 个 ImageSaver 组 件 放置 在 布局 区 域 ， 用 两 个 image 
连接 分 别 将 两 个 ModelPerformanceChart 组 件 与 两 个 ImageSaver 组 件 相连 ; 双击 
ImageSaver 组 件 ， 将 Filename 选项 设置 为 Weka 安装 目录 下 的 outputROC ， 双 击 
ImageSaver2 组 件 ， 将 Filename 选项 设置 为 Weka 安装 目录 下 的 output\ErrorPlot。 

完成 绘制 并 调整 后 的 分 类 器 性 能 的 知识 流 如 图 3.34 所 示 。 
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3.34 ”分 类 器 性 能 的 知识 流 


在 工具 栏 中 单 击 运行 按钮 启动 流程 。 在 Windows 资源 管理 器 中 可 以 看 到 保存 的 两 个 图 
像 文件 ， 如 图 3.35 所 示 。 本 实验 能 够 保存 ROC 图 像 和 误差 散 点 图 ， 结 果 符 合 预期 。 


图 3.35 保存 后 的 ErrorPlot 和 ROC 图 像 文件 


7. 训练 并 保存 学 习 模型 

本 实践 的 任务 是 ， 先 训练 一 个 NaiveBayes 分 类 器 ， 然 后 将 训练 后 的 学 习 模型 序列 化 到 
一 个 二 进 制 文件 中 。 在 下 一 次 实践 中 ， 会 加 载 这 次 保存 的 模型 文件 ， 并 使 用 模型 进行 
测试 。 

首先 ， 将 一 个 ArffLoader 组 件 放置 在 布局 区 域 ， 然 后 双击 布局 区 域 中 的 ArffLoader 图 
标 ， 选 择 加 载 segment-challenge.arff 数据 集 。 下 一 步 ， 将 一 个 ClassAssigner 组 件 放置 在 布 
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局 区 域 ， 选 择 dataSet 连接 ArffLoader 组 件 和 ClassAssigner 组 件 。 下 一 步 ， 将 一 个 
TrainingSetMaker 组 件 放置 在 布局 区 域 ， 选 择 dataSet 连接 ClassAssigner 组 件 和 
TrainingSetMaker 组 件 。 下 一 步 ， 将 一 个 NaiveBayes 组 件 放 置 在 布局 区 域 ， 选 择 
trainingSet 连接 TrainingSetMaker 组 件 和 NaiveBayes 组 件 。 下 一 步 ， 将 一 个 TextViewer 组 
件 放置 在 布局 区 域 ， 选 择 text 连接 NaiveBayes 组 件 和 TextViewer 组 件 。 最 后 ， 将 一 个 
SerializedModelSaver 组 件 放 置 在 布局 区 域 ， 选 择 batchClassifier 连接 NaiveBayes 组 件 和 
SerializedModelSaver 组 件 ; 双击 SerializedModelSaver 组 件 ， 并 按照 图 3.36 所 示 设 置 
Prefix for file name( 文 件 名 前 级 )、Directory( 目 录 ) 选 项 。 


Save trained models lo seiialzed ovied les, 


3.36 设置 模型 保存 器 选项 
按 以 上 步骤 绘制 并 调整 后 的 学 习 模 型 的 知识 流 如 图 3.37 所 示 。 


3.37 ”学 习 模型 的 知识 流 


在 工具 栏 中 单 击 运行 按钮 启动 流程 。 流 程 结 束 后 ， 在 Weka 安装 目录 下 的 output 子 目 
录 中 就 会 生成 一 个 名 为 trainingModelNaiveBayes_1_1.model 的 模型 文件 ， 下 一 个 实践 中 会 
加 载 这 个 模型 文件 。 

8. 加 载 学 习 模 型 并 预测 

本 次 实践 的 任务 是 : 加 载 上 次 实践 中 保存 的 模型 文件 ， 然 后 用 模型 对 未 知 数据 进行 
测试 。 

首先 ， 将 一 个 ArffLoader 组 件 放置 在 布局 区 域 ， 然 后 双击 布局 区 域 中 的 ArffLoader 图 
标 ， 选 择 加 载 segment-test.arff 数据 集 。 下 一 步 ， 将 一 个 ClassAssigner 组 件 放 置 在 布局 区 域 ， 
选择 instance 连接 ArffLoader 组 件 和 ClassAssigner 组 件 。 下 一 步 ， 将 一 个 NaiveBayes 组 件 放 
置 在 布局 区 域 ， 选 择 instance 连接 ClassAssigner 组 件 和 NaiveBayes 组 件 ， 双 击 NaiveBayes 
组 件 ， 设 置 Load model from file( 从 文件 加 载 模 型 ) 选 项 为 上 次 实践 所 保存 的 模型 文件 ， 即 


output\trainingModelNaiveBayes 1 1.model。 下 一 步 ， 将 一 个 IncrementalClassifierEvaluator 组 
件 放置 在 布局 区 域 ， 选 择 incrementalClassifier 连接 NaiveBayes 组 件 和 
IncrementalClassifierEvaluator 组 件 。 下 一 步 ， 将 一 个 TextViewer 组 件 放置 在 布局 区 域 ， 选 
择 text 连接 IncrementalClassifierEvaluator 组 件 和 TextViewer 组 件 。 最 后 ， 将 一 个 
StripChart 组 件 放置 在 布局 区 域 ， 选 择 chart 连接 IncrementalClassifierEvaluator 组 件 和 
StripChart 组 件 ; 双击 StripChart 组 件 ， 将 refreshFreq 选项 由 默认 的 5 修改 为 2， 将 
xLabelFreq 选项 由 默认 的 500 修改 为 100。 
按 以 上 步 又 绘制 并 调整 后 的 加 载 学 习 模 型 的 知识 流 如 图 3.38 所 示 。 
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3.38 ”加 载 学 习 模 型 的 知识 流 


在 启动 流程 之 前 ， 一 定 要 记得 先 显示 Strip Chart 图 表 ， 否 则 看 不 到 动态 显示 的 结果 。 
操作 步骤 为 : 右 击 StripChart 组 件 ， 在 弹出 的 快捷 菜单 中 选择 Show chart 菜单 项 ， 此 时 就 
会 弹出 一 个 始终 显示 在 顶层 的 Strip Chart 图 表 。 

在 工具 栏 中 单 击 运行 按钮 启动 流程 。 注 意 观察 Strip Chart 图 表 的 变化 ， 最 终 的 Strip 
Chart 图 表 如 图 3.39 所 示 。 


图 3.39 Strip Chart 图 表 
可 以 看 到 ， 最 初 的 性 能 似乎 过 于 优秀 ， 但 过 了 一 段 时 间 后 ， 其 性 能 才 逐 渐 稳 定 。 


亚 注意 :， 本 例 与 前 面 的 “处 理 增 量 数据 ”示例 不 同 。 虽 然 两 者 的 测试 实例 都 是 以 增 量 
模式 输入 到 分 类 器 中 ， 但 “处 理 增 量 数据 ”示例 中 的 分 类 器 总 是 先 要 预测 每 
个 输入 实例 ， 然 后 再 训练 (更 新 ) 分 类 器 ; 而 本 例 中 的 分 类 器 已 经 训练 好 了 ， 
仅仅 对 每 个 输入 实例 进行 预测 ， 不 能 更 新 分 类 器 。 


9. 聚 类 器 比较 


本 例 比较 EM 聚 类 器 和 大 均值 高 斯 分 布 聚 类 器 。 首 先 加 载 数据 集 并 去 除 类 别 属性 ， 然 
后 将 数据 集 按照 66% 和 34% 的 比例 划分 为 训练 集 和 测试 集 ， 接 着 分 别 用 EM 到 类 器 和 
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MakeDensityBasedClusterer 聚 类 器 进行 聚 类 ， 最 后 使 用 聚 类 器 性 能 评估 器 对 聚 类 器 的 性 能 
进行 评估 。 知 识 流 的 构建 步骤 如 下 。 

首先 ， 将 一 个 ArffLoader 组 件 放置 在 布局 区 域 ， 然 后 双击 布局 区 域 中 的 ArffLoader 图 
标 ， 选 择 加 载 iris.arff 数据 集 。 下 一 步 ， 将 一 个 Remove 组 件 放 置 在 布局 区 域 ， 选 择 
dataSet 连接 ArffLoader 组 件 和 Remove 组 件 ， 双击 Remove 组 件 ， 将 attributeIndices 选项 
设置 为 last， 将 类 别 属 性 去 除 。 下 一 步 ， 将 一 个 TrainTestSplitMaker 组 件 放置 在 布局 区 
域 ， 选 择 dataSet 连接 Remove 组 件 和 TrainTestSplitMaker 组 件 。 下 一 步 ， 将 一 个 EM 组 件 
放置 在 布局 区 域 ， 选 择 trainingSet 连接 和 testSet 连接 将 TrainTestSplitMaker 组 件 和 EM 组 
件 相 连 。 下 一 步 ， 将 一 个 MakeDensityBasedClusterer 组 件 放 置 在 布局 区 域 ， 选 择 
trainingSet 连接 和 testSet 连接 将 TrainTestSplitMaker 组 件 和 MakeDensityBasedClusterer 组 
件 相连 。 下 一 步 ， 将 两 个 ClustererPerformanceEvaluator 组 件 放置 在 布局 区 域 ， 选 择 
batchClusterer 连接 将 EM 组 件 和 ClustererPerformanceEvaluator 组 件 相 连 ， 选 择 
batchClusterer 连接 将 MakeDensityBasedClusterer 组 件 和 ClustererPerformanceEvaluator2 组 件 
相连 。 最 后 ， 将 一 个 TextViewer 组 件 放置 在 布局 区 域 ， 选 择 text 连接 分 别 将 两 个 
ClustererPerformanceEvaluator 组 件 和 TextViewer 组 件 相连 。 

按 以 上 步骤 绘制 并 调整 后 的 聚 类 器 比较 知识 流 如 图 3.40 所 示 。 
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3.40 ” 聚 类 器 比较 知识 流 


单 击 运行 按钮 启动 流程 运行 ， 然 后 右 击 TextViewer 组 件 ， 在 弹出 的 快捷 菜单 中 选择 
Show results 菜单 项 ， 得 到 如 图 3.41 所 示 的 比较 结果 。 


图 3.41 比较 结果 


9 课 后 强化 义 习 全 


3.1 试 比较 知识 流 和 探索 者 的 优势 与 不 足 。 

3.2 ”完成 “使 用 J48 交叉 验证 ”实验 。 

3.3 在 “绘制 多 条 ROC 曲线 ”实验 中 ， 为 什么 要 使 用 ClassValuePicker 组 件 ? 如 果 不 
使 用 会 怎样 ? 

3.4 为 什么 在 很 多 时 候 ， 集 成 学 习 方 案 比 单独 的 分 类 器 (如 J48) 方 案 的 效果 要 好 ? 但 
有 时 也 有 例外 ， 这 是 为 什么 ? 

3.5 在 “保存 图 表 ” 实 验 中 ，X-axis attribute 选项 和 Y-axis attribute 选项 各 表示 什么 
含义 ? 

3.6 ”SerializedModelSaver 组 件 的 功能 是 什么 ? 

3.7 使 用 instance 连接 ， 分 别 将 数据 与 增 量 分 类 器 和 批量 分 类 器 相连 有 什么 差别 ? 
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探索 者 界面 和 知识 流 界面 能 够 帮助 数据 挖 气 人 员 确 定 菜 个 机 器 学 习 方 
案 执行 给 定数 据 集 的 性 能 如 何 。 但 是 ， 很 多 实际 的 数据 挖 气 通 常会 涉及 非 
常 繁重 的 实验 工作 ， 通 常会 有 多 个 学 习 方 案 运行 在 不 同 的 数据 集 上 ， 经 常 
需要 设置 不 同 的 参数 ， 探 索 者 和 知识 流 这 两 种 界面 不 适合 完成 这 类 实际 工 
作 。 针 对 这 种 情况 ，Weka 提供 实验 者 (Experimenter) 界 面 ， 它 可 以 让 挖 气 
人 员 在 设置 好 大 规模 的 实验 ， 并 启动 实验 运行 后 ， 就 可 以 暂时 离开 去 做 其 
”他 工作 ， 等 实验 运行 完成 之 后 ， 再 着 手 分 析 已 经 收集 好 的 性 能 统计 数据 。 
这 样 就 实现 了 实验 过 程 的 自动 化 ， 统 计 信 息 可 以 存储 为 ARFF 格式 的 文 
件 ， 作 为 进一步 的 数据 挖 据 的 主题 。 

知识 流 界面 超越 了 空间 的 限制 ， 允 许 机 器 学 习 方案 不 必 一 次 加 载 整个 
数据 集 就 可 运行 ; 而 实验 者 界面 则 超越 了 时 间 的 限制 ， 它 包含 了 一 些 分 布 
式 计算 的 功能 ， 例 如 ， 高 级 用 户 可 以 使 用 Java RMI( 远 程 方法 调用 ) 在 多 台 
间 分 配 计算 负载 ， 以 节省 时 间 开 销 。 这 样 ， 用 户 可 以 设置 数据 量 很 大 
验 ， 并 且 在 运行 实验 时 不 必 守候 ， 只 要 在 最 后 分 析 性 能 统计 信息 即 可 。 
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4.1 简 介 


Weka 实验 者 界面 能 让 用 户 更 为 方便 地 创建 、 运 行 、 修 改 和 分 析 实 验 。 例 如 ， 用 户 可 
以 创建 一 个 实验 ， 对 一 系列 数据 集运 行 多 个 学 习 方 案 ， 然 后 对 结果 进行 分 析 ， 以 确定 哪 一 
个 学 习 方案 在 性 能 统计 数据 上 优 于 其 他 方案 。 

单 击 Weka GUI 选择 器 窗口 中 的 Experimenter 按钮 ， 就 可 以 启动 实验 者 界面 ， 如 图 4.1 
所 示 。 


4.1 实验 者 界面 


刚 开始 启动 实验 者 界面 时 ， 实 验 者 界面 中 的 大 多 数 功 能 都 不 可 用 。 用 户 可 单 击 Open 
按钮 打开 以 前 保存 的 实验 ， 或 者 单 击 New 按钮 新 建 实验 ， 之 后 界面 中 的 一 些 功能 才 可 用 。 
实验 者 界面 有 两 种 风格 : 第 一 种 为 简单 界面 ， 提 供 了 进行 实验 所 需 的 大 多 数 功能 ， 第 
二 种 为 高 级 界面 ， 可 以 充分 利用 实验 者 界面 的 功能 。 界 面 上 部 有 一 个 Experiment 
Configuration Mode( 实 验 配 置 模式 ) 下 拉 列 表 框 ， 用 户 可 以 在 Simple( 简 单 ) 和 Advanced( 高 级 ) 
这 两 种 风格 选项 中 选择 一 种 。 两 种 风格 都 能 让 用 户 设置 在 一 台 本 地 计算 机 上 运行 的 标准 实 
验 ， 或 者 在 多 台 主 机 之 间 分 配 计 算 任务 的 远程 分 布 实验 。 分 布 实验 减少 了 运行 实验 所 占用 
的 时 间 ， 但 同时 也 需要 花费 稍 多 一 些 的 时 间 进 行 设置 。 
除了 可 使 用 GUI 以 外 ， 实 验 者 界面 还 可 以 在 简单 命令 行 界面 中 运行 。 例 如 ， 可 以 在 命 
令 行 界面 中 输入 下 面 的 命令 ， 并 按 Enter 键 使 其 运行 。 该 命令 的 功能 是 在 iris 数据 集 上 运 
行 OneR 算法 ， 进 行 基本 训练 和 测试 过 程 。 
java weka.experiment .Experiment -r -T data/iris.arff 
-D weka.experiment.InstancesResultListener 
-P weka.experiment .RandomSplitResultProducer —— 


-W weka.experiment .ClassifiersplitEvaluator —— 
-W weka.classifiers.rules.OneR 


狂 注意 : ”上 述 命令 必须 在 一 行内 输 完 ， 分 为 多 行 只 是 为 了 更 清楚 地 表示 命令 结构 。 
尽管 可 以 直接 将 命令 输入 命令 行 界面 ， 但 这 种 使 用 方式 并 不 方便 ， 也 不 容易 进行 修 


改 。 因 此 ， 绝 大 部 分 的 实验 还 是 使 用 GUI 完成 。 


4.2 标准 实验 


本 节 介 绍 标准 实验 ， 在 单 台 本 地 计算 机 上 对 简单 实验 和 高 级 实验 进行 设置 和 运行 ， 实 
验 结 果 分 析 将 在 后 文中 介绍 。 


4.2.1 简单 实验 


1. 打开 、 保 存 和 新 建 实验 

在 实验 者 界面 的 Setup( 设 置 ) 标 签 页 中 ， 可 以 打开 、 保 存 和 新 建 实验 设置 ， 这 三 个 功能 
对 应 于 Setup 标签 页 上 部 的 三 个 按钮 。 

如 果 要 新 建 一 个 实验 ， 可 单 击 New 按钮 ， 实 验 者 界面 将 使 用 默认 选项 创建 一 个 实验 ， 
如 图 4.2 所 示 。 可 以 看 到 ， 实 验 者 界面 中 很 多 原来 不 可 用 的 功能 现在 变 得 可 用 。 


图 4.2 新 建 实验 
由 于 很 多 实验 都 需要 繁杂 的 设置 ， 为 了 将 来 能 够 复 用 ， 可 以 将 当前 实验 设置 保存 为 文 
件 。 具 体 方法 是 : 单 击 Save 按钮 ， 会 弹出 “保存 ”对 话 框 ， 可 以 在 该 对 话 框 中 输入 文件 
名 以 及 选择 文件 类 型 ， 如 图 4.3 所 示 。 
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实验 文件 默认 是 Java 序列 化 二 进 制 格式 ， 其 文件 后 缀 为 .cxp， 这 种 格式 的 缺点 是 可 能 
在 Weka 的 不 同 版 本 之 间 无 法 兼容 。 更 好 的 格式 是 XML 格式 ， 其 文件 后 组 为 .xml， 这 种 格 
式 在 不 同 Weka 版 本 中 的 兼容 性 更 好 。 
如 果 将 来 要 使 用 以 前 保存 过 的 实验 文件 ， 可 以 单 击 Open 按钮 打开 实验 文件 ， 在 以 前 
工作 的 基础 上 进一步 完善 实验 。 


2. 结果 目标 


Results Destination( 结 果 目 标 ) 选 项 组 用 于 设置 实验 结果 输出 的 目标 。 目 标 可 以 是 文 
件 ， 支 持 ARFF file(ARFF 文件 ) 格 式 、CSV file(CSV 文件 ) 格 式 ， 也 可 以 是 JDBC 
database(JDBC 数据 库 )， 默 认 格 式 为 ARFF。 可 在 下 拉 列 表 杠 中 选择 实验 结果 目标 。 

如 果 目 标 文件 名 为 空 ， 将 在 系统 临时 TEMP 目录 中 创建 一 个 临时 文件 。 如 果 用 户 要 明 
确 指定 结果 文件 ， 可 单 击 Browse( 浏 览 ) 按 钮 ， 在 弹出 的 “保存 ”对 话 框 中 输入 一 个 文件 
名 ， 如 Experimentl.arff。 然 后 单 击 “保存 ” 按 钮 ， 可 以 看 到 Filename 文本 框 中 会 显示 带路 
径 的 文件 名 ， 如 图 4.4 所 示 。 


ess leatiaatioa 
Mr File Pileme | woriama ff Lis 


4.4 保存 目标 文件 


CSV 格式 类 似 于 ARFF 格式 ， 只 是 没有 声明 属性 数据 类 型 的 标题 头 。CSYV 格式 可 用 外 
部 电子 表格 应 用 程序 (如 Exce]) 装 载 ， 因 此 更 容易 阅读 。ARFF 格式 和 CSV 格式 文件 的 共同 
优点 是 : 创建 这 些 文件 只 需要 Weka 的 自 带 类 ， 不 需要 额外 类 ; 其 缺点 是 : 缺乏 从 中 断 的 
实验 中 恢复 的 能 力 ， 例 如 ， 如 果 由 于 产生 错误 导致 中 断 ， 或 在 添加 数据 集 或 算法 时 发 生 中 
断 ， 就 会 前 功 尽 弃 ， 只 能 重 做 实验 。 尤 其 是 对 于 耗 时 的 实验 ， 这 种 缺点 很 突出 。 

使 用 JDBC 数据 库 连接 ， 很 容易 将 结果 存储 到 数据 库 中 。 


亚 注意 : ”要 在 CLASSPATH 路 径 中 添加 必要 的 数据 库 驱 动 jar 文件 信息 ， 使 得 Weka 
能 够 使 用 特定 数据 库 的 JDBC 功能 。 


如 果 将 结果 目标 改 为 JDBC database(JDBC 数据 库 )， 则 Filename 文本 框 会 变 为 URL 
文本 框 ， 用 户 可 以 在 文本 框 中 输入 数据 库 URL; Browse 按钮 会 变 为 User 按钮 ， 单 击 该 按 
钮 可 以 设置 访问 数据 库 的 JDBC URL 和 用 户 名 及 密码 。 如 图 4.5 所 示 ， 提 供 必 要 参数 之 
后 ， 单 击 OK 按钮 ，URL 文本 框 也 会 同步 更 新 。 


图 4.5 设置 数据 库 连 接 参数 
王 注意 :， 在 设置 数据 库 连 接 参 数 时 ， 并 不 会 测试 数据 库 连接 。 只 有 在 启动 实验 运行 
时 ， 才 会 测试 数据 库 连接 。 因此， 哪怕 设 置 了 有 问题 的 数据 库 连接 参数 ， 
Weka 也 不 会 立即 报错 。 


使 用 JDBC 数据 库 的 优点 是 ， 可 以 增加 从 中 断 的 实验 或 扩展 实验 中 恢复 的 可 能 性 。 不 
需要 重新 运行 所 有 的 算法 和 数据 集 的 组 合 ， 而 只 需 计算 短缺 的 那 部 分 算法 和 数据 集 。 

3. 实验 类 型 

Experiment Type( 实 验 类 型 ) 选 项 组 用 于 设置 如 何 对 数据 集 进行 分 制 ， 以 及 实验 目标 是 
分 类 还 是 回归 。 用 户 可 以 选择 以 下 三 种 类 型 之 一 。 

1) Cross-validation (交叉 验证 ) 

这 是 默认 类 型 。 需 要 指定 折 数 ， 默 认为 10 折 ， 执 行 指定 折 数 的 分 层 交 叉 验 证 。 

2) Train/Test Percentage Split(data randomized)( 随 机 化 置 乱 数 据 的 训练 /测试 按 百 分 比 
拆 分 ) 

需要 指定 训练 数据 所 占 的 百分比 ， 默 认为 66.0%， 根 据 给 定 的 百分比 将 数据 集 拆 分 成 
训练 文件 和 测试 文件 ， 但 在 该 实验 者 界面 中 不 能 明确 指定 训练 文件 和 测试 文件 的 名 称 。 拆 
分 后 ， 数 据 集 的 顺序 已 经 随机 重 排 并 分 层 。 

3) Train/Test Percentage Split(order preserved)( 保 持 数据 顺序 的 训练 /测试 按 百 分 比 拆 分 ) 

这 种 类 型 与 上 一 种 类 型 类 似 ， 只 是 保持 原来 的 数据 顺序 。 由 于 不 能 明确 指定 训练 文件 
和 测试 文件 ， 有 人 可 能 滥用 这 种 类 型 ， 用 于 将 已 经 合并 过 的 数据 文件 根据 正确 的 百分比 复 
原 为 原来 的 训练 和 测试 文件 。 

此 外 ， 根 据 所 使 用 的 数据 集 和 学 习 器 ， 用 户 可 以 在 单 选 按钮 组 中 选中 Classification( 分 
类 ) 或 Regression( 回 归 )， 默 认 选 中 Classification。 主 要 根据 数据 集 的 类 别 属性 的 类 型 进行 
选择 ， 如 果 是 离散 的 标 称 型 ， 就 是 分 类 问题 ， 如 果 是 连续 的 数值 型 ， 则 是 回归 问题 。 例 
如 ， 对 于 应 用 于 萝 尾 花 数据 集 的 决策 树 算法 (如 J48)， 应 该 选择 分 类 ; 而 对 于 应 用 于 CPU 
的 数值 分 类 器 算法 (如 M5P)， 则 应 该 选择 回归 。 


4. 迭代 控制 


Iteration Control( 和 迭代 控制 ) 选 项 组 用 于 设置 重复 迭代 次 数 ， 以 及 是 数据 集 优先 还 是 算 
法 优先 。 

Number of repetitions( 重 复 次 数 ) 文 本 框 用 于 设置 迭代 次 数 。 为 了 得 到 统计 学 上 有 意义 
的 结果 ， 默 认 的 夫 代 次 数 为 10。 对 于 十 折 交 叉 验 证 ， 这 意味 着 将 调用 一 个 分 类 器 100 次 ， 
运行 训练 数据 并 对 测试 数据 进行 测试 。 

Data sets first( 数 据 集 优先 ) 单 选 按钮 和 Algorithms first( 算 法 优先 ) 单 选 按钮 构成 一 个 单 
选 按钮 组 ， 用 于 设置 这 两 者 究竟 何者 优先 。 只 要 有 一 个 以 上 的 数据 集 和 算法 ， 就 可 以 选择 
是 优先 遍历 数据 集 还 是 优先 遍历 算法 。 如 果 用 户 将 结果 存储 在 数据 库 中 ， 并 希望 尽早 完成 
用 一 个 算法 处 理 全 部 数据 集 的 结果 ， 可 选择 数据 集 优先 ， 反之 ， 则 选择 算法 优先 。 


5. 数据 集 


Datasets( 数 据 集 ) 选 项 组 用 于 配置 数据 集 。 用 户 可 以 以 绝对 路 径 或 相对 路 径 来 添加 一 个 
或 多 个 数据 集 文 件 。 相 对 路 径 往往 更 容易 在 不 同 机 器 上 运行 实验 ， 因 此 ， 用 户 在 单 击 Add 
new 按钮 之 前 ， 最 好 先 选 中 Use relative paths( 使 用 相对 路 径 ) 复 选 框 。 

先 打 开 data 目录 并 选择 iris.arff 数据 集 ， 单 击 Open( 打 开 ) 按 钮 后 ， 文 件 将 显示 在 数据 
集 列 表 中 ， 如 图 4.6 所 示 。 如 果 用 户 选择 一 个 目录 并 单 击 Open 按钮 ， 那 么 将 递归 添加 目录 
中 所 有 的 ARFF 文件 。 可 以 编辑 数据 集 文件 ， 具 体 步 骤 是 : 选择 要 编辑 的 文件 ， 然 后 单 击 
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Edit selected( 编 辑 所 选 ) 按 钮 ， 就 会 打开 一 个 编辑 数据 集 文件 的 Viewer 对 话 框 。 删 除 文件 的 
步骤 是 : 选择 要 删除 的 文件 ， 然 后 单 击 Delete selected( 删 除 所 选 ) 按 钮 ， 就 会 从 列表 中 删除 
数据 集 文件 。 


4.6 选择 iris 数据 集 


Weka 实验 者 界面 不 仅 能 加 载 ARFF 格式 文件 ， 还 能 支持 其 他 文件 格式 ， 如 C4.5、 
CSV、LibSVM、bsi( 二 进 制 序列 化 实例 ) 和 XRFF 格式 。 

默认 情况 下 ， 数 据 集中 的 最 后 一 个 属性 被 认为 是 类 别 属性 。 但 是 ， 如 果 数 据 格式 包含 
了 类 别 属性 的 信息 ， 如 XRFF 和 C4.5， 就 使 用 数据 格式 里 明确 规定 的 类 别 属性 。 

Datasets 选项 组 下 方 的 Up 按钮 和 Down 按钮 用 于 设置 数据 集 的 顺序 。 


6. 算法 


Algorithms( 算 法 ) 选 项 组 用 于 配置 学 习 算 法 。 

通过 单 击 Add new( 添 加 新 的 ) 按 钮 ， 可 以 在 打开 的 对 话 框 中 添加 新 的 算法 。 如 果 是 第 
一 次 添加 算法 ， 对 话 框 中 会 显示 ZeroR 算法 ， 和 否则 显示 最 后 选择 的 算法 ， 如 图 4.7 所 示 。 

如 果 要 选择 其 他 的 学 习 算法 ， 可 以 在 对 话 框 中 单 击 Choose( 选 择 ) 按 钮 打开 分 层 列表 ， 
从 中 选择 需要 的 学 习 算 法 ， 如 图 4.8 所 示 。 选 择 完成 后 ， 单 击 OK 按钮 完成 添加 。 


图 4.7 选择 算法 图 4.8 选择 其 他 算法 


如 果 还 需要 添加 其 他 算法 ， 可 再 次 单 击 Add new 按钮 进行 添加 。 图 4.9 所 示 为 添加 
J48 决策 树 时 可 配置 的 选项 。 完 成 选项 设置 后 ， 单 击 OK 按钮 将 其 添加 到 算法 列表 中 ， 如 
图 4.10 所 示 。Add new 按钮 旁边 还 有 两 个 按钮 : Edit selected( 编 辑 所 选 ) 按 钮 ， 用 于 编辑 算 
法 的 选项 ，Delete selected( 删 除 所 选 ) 按 钮 ， 用 于 删除 选中 的 算法 。 
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4.10 ”添加 两 个 学 习 算法 


Algorithms 选项 组 的 下 部 有 四 个 按钮 。 使 用 Load options( 加 载 选项 ) 按 钮 可 以 从 XML 
文件 中 加 载 设置 ， 用 于 恢复 选中 的 学 习 器 (一 般 为 分 类 器 ) 的 设置 ， 使 用 Save options( 保 存 选 
项 ) 按 钮 可 以 将 分 类 器 设置 保存 到 XML 文件 中 。 这 两 个 按钮 对 于 需要 复杂 配置 的 分 类 器 (如 
赃 套 元 分 类 器 ) 来 说 特别 有 用 ， 因 为 它 节省 了 手动 恢复 学 习 器 设置 所 需 的 时 间 ， 而 学 习 器 经 
常 需要 进行 设置 且 通 常会 耗费 很 长 时 间 。Up 按钮 和 Down 按钮 分 别 用 于 将 选中 的 学 习 器 上 
移 和 下 移 。 

通过 右 击 (或 在 按 住 Alt 键 和 Shift 键 的 同时 单 击 ) 算 法 列表 ， 并 从 弹出 的 快捷 菜单 中 选 
择 相应 的 菜单 项 ， 用 户 可 以 打开 通用 对 象 编辑 器 对 话 框 (选择 Show Properties 菜单 项 ); 或 
者 将 当前 设置 的 字符 串 复 制 到 剪贴 板 ( 选 择 Copy configuration to clipboard 菜单 项 ); 或 者 添 
加 新 的 分 类 器 (选择 Add configuration); 或 者 直接 输入 设置 字符 串 ， 更 改选 中 分 类 器 的 设置 
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(选择 Enter configuration 菜单 项 )。 如 果 要 从 Weka 探索 者 界面 中 将 分 类 器 设置 直接 复制 到 
实验 者 界面 ，Enter configuration 菜单 项 会 非常 有 用 ， 比 从 头 开始 设置 分 类 器 要 方便 得 多 。 

Setup 标签 页 的 最 下 面 还 有 一 个 Notes( 注 解 ) 按 钮 ， 单 击 该 按钮 会 打开 一 个 编辑 器 窗 
口 ， 用 户 可 以 用 文字 对 所 做 的 设置 进行 记录 以 帮助 回忆 。 

7. 运行 实验 

要 运行 当前 的 实验 ， 可 单 击 实验 者 界面 项 部 的 Run( 运 行 ) 标 签 ， 切 换 至 Run 标签 页 。 
当前 实验 使 用 ZeroR 和 J48 学 习 方 案 ， 对 高 尾 花 数据 集运 行 10 次 十 折 分 层 交 叉 验证 。 

单 击 Start 按钮 启动 实验 。 如 果实 验 设 置 正确 ，Log 区 域 中 会 显示 三 条 消息 (实验 开始 
时 间 、 实 验 结束 时 间 、 出 了 多 少 个 错误 )， 实 验 结果 会 保存 到 Experimentl.arff 文件 中 ， 如 
4.11 所 示 。 


图 4.11 运行 结果 
读者 可 自行 打开 所 保存 的 实验 文件 ， 探 索 其 文件 结构 ， 后 文 将 详细 讲述 如 何 对 实验 结 
果 进 行 分 析 。 
4.2.2 ”高 级 实验 
1. 高 级 实验 模式 


在 Setup 标签 页 顶部 的 Experiment Configuration Mode 下 拉 列 表 框 中 选择 Advanced 选 
项 ， 启 动 高 级 实验 模式 。 单 击 New 按钮 初始 化 实验 ， 使 用 默认 参数 设置 实验 ， 如 图 4.12 
所 示 。 


4.12 ”新 建 高 级 实验 


Setup 标签 页 上 部 的 Open 按钮 、Save 按钮 和 New 按钮 的 功能 与 简单 实验 一 样 ， 这 里 
不 再 重复 说 明 。 
2. 目标 


Destination( 目 标 ) 选 项 组 用 于 选择 结果 监听 器 。 单 击 Destination 选项 组 中 的 Choose 按 
钮 ， 会 弹出 如 图 4.13 所 示 的 分 层 列 表 ， 可 从 中 选择 结果 监听 器 。 


图 4.13 选择 结果 监听 器 


有 三 种 结果 监听 器 可 用 : InstancesResultListener( 默认 ) 、CSVResultListener 和 
DatabaseResultListener。 

(1) InstancesResultListener 结果 监听 器 : 将 接收 到 的 结果 以 ARFF 格式 输出 到 一 个 写 入 
器 (Writer)。 在 将 实例 结果 写 入 之 前 ， 必 须 收 到 所 有 的 结果 。 

其 可 视 化 参数 如 下 。 

outputFile( 输 出 文件 ): 设置 保存 的 文件 。 使 用 “-” 表 示 写 入 到 标准 输出 。 

(2) CSVResultListener 结果 监听 器 : 从 结果 产生 器 得 到 结果 ， 然 后 将 它们 组 装 成 逗号 
分 隔 值 的 形式 。 

其 可 视 化 参数 如 下 。 

outputFile( 输 出 文件 ): 设置 保存 的 文件 。 使 用 “-” 表 示 写 入 到 标准 输出 。 

(3) DatabaseResultListener 结果 监听 器 : 从 结果 产生 器 得 到 结果 ， 然 后 发 送 至 数据 库 。 

其 可 视 化 参数 如 下 。 

e ”cacheKeyName( 缓 存 主键 名 称 ): 设置 主键 字段 名 称 ， 以 便 缓存 。 
databaseURL( 数 据 库 URL): 设置 数据 库 URL。 
Debug( 调 试 ): 设置 是 否 打印 调试 信息 。 
keywords( 关 键 字 ): 设置 SQL 语句 关键 字 。 
keywordsMaskChar( 关 键 字 屏蔽 字符 ): 设置 关键 字 屏 蔽 字符 。 默 认为 “ ”。 
password( 密 码 ): 设置 用 于 连接 到 数据 库 的 密码 。 
usemame( 用 户 名 ): 设置 用 于 连接 到 数据 库 的 用 户 名 。 
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单 击 Choose 按钮 右边 的 文本 框 ， 可 打开 Weka 通用 对 象 编辑 器 对 话 框 ， 在 其 中 设置 结 
果 监 听 器 的 选项 。 例 如 ， 在 图 4.14 所 示 的 对 话 框 中 可 以 指定 接收 输出 结果 的 数据 集 文件 。 
outputFile 文本 框 中 显示 当前 指定 输出 文件 的 名 称 。 

单 击 outputFile 文本 框 ， 会 弹出 一 个 文件 编辑 器 对 话 框 ， 在 其 中 可 以 修改 输出 文件 的 
名 称 。 如 图 4.15 所 示 ， 输 入 输出 文件 的 名 称 并 单 击 “保存 ”按钮 ， 文 件 名 称 会 显示 在 
4.14 所 示 对 话 框 的 outputFile 文本 框 中 ， 单 击 OK 按钮 关闭 对 话 框 ，Setup 标签 页 的 
Destination 选项 组 中 会 显示 更 新 后 的 数据 集 文件 名 称 。 
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图 4.14 指定 输出 文件 图 4.15 修改 输出 文件 的 名 称 


3. 结果 产生 器 


Result generator( 结 果 产 生 器 ) 选 项 组 用 于 选择 结果 产生 器 。 单 击 Choose 按钮 ， 会 弹出 
如 图 4.16 所 示 的 分 层 列表 ， 可 从 中 选择 结果 产生 器 。 
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图 4.16 选择 结果 产生 器 


Weka 提供 以 下 七 种 结果 产生 器 。 
(1) AveragingResultProducer 结果 产生 器 : 从 结果 产生 器 获取 结果 并 将 其 平均 后 提交 给 结果 
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监听 器 。 通 常 与 CrossValidationResultProducer 一 同 使 用 ， 执 行 n x m 的 交叉 验证 。 对 于 非 数 值 
的 结果 字段 ， 使 用 第 一 个 值 。 
其 可 视 化 参数 如 下 。 


calculateStdDevs( 计 算 标准 偏差 ): 记录 每 次 运行 的 标准 偏差 。 默 认为 False。 
expectedResultsPerAverage( 每 轮 平均 的 预期 结果 ): 设置 每 轮 运行 的 用 于 平均 的 预 
期 结果 数量 ， 默 认 值 为 10 。 例 如 ， 如 果 正 在 使 用 一 个 折 数 设置 为 10 的 
CrossValidationResultProducer， 那 么 每 轮 运行 预期 的 结果 数 是 10。 
keyFieldName( 关 键 字段 名 ): 设置 每 轮 运行 的 唯一 字段 名 。 默 认为 Fold。 
resultProducer( 结 果 产 生 器 ): 设置 将 结果 进行 平均 的 结果 产生 器 。 默 认为 
CrossValidationResultProducer。 


(2) CrossValidationResultProducer 结果 产生 器 : 在 每 轮 运行 时 生成 ， 执 行 n 折 交 叉 验 


证 ， 使 用 splitEvaluator 的 设置 产生 一 些 结果 。 如 果 类 别 属 性 是 标 称 型 ， 则 数据 集会 分 
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该 结果 产生 器 产生 每 折 的 结果 ， 因 此 用 户 可 能 希望 与 AveragingResultProducer 一 同 使 用 ， 
以 获得 每 轮 运行 的 平均 结果 。 
其 可 视 化 参数 如 下 。 


numFolds( 折 数 ): 设置 用 于 交叉 验证 的 折 数 。 默 认 值 为 10。 

outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 设 置 rawOutput 选项 为 
True， 则 保存 从 splitEvaluator 输出 的 每 个 折 。 如 果 目 标 是 一 个 目录 ， 则 每 个 输出 
保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 保存 为 zip 文件 
中 的 一 个 条 目 。 默 认为 splitEvalutorOut.zip。 

rawOutput( 原 始 输出 ): 设置 是 否 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设置 为 
True， 则 将 输出 发 送 到 outputFile 选项 指定 的 目标 。 默 认为 False。 
splitEvaluator( 拆 分 评估 器 ): 设置 应 用 于 交叉 验证 折 的 评估 器 。 它 可 以 是 一 个 分 类 
器 、 回 归 方案 等 。 默 认为 ClassifierSplitEvaluator。 


(3) CrossValidationSplitResultProducer 结果 产生 器 : 执行 重复 大 折 交 叉 验 证 的 一 个 拆 
分 ， 使 用 splitEvaluator 的 设置 产生 一 些 结果 。 和 需要 注意 的 是 ， 运 行 次 数 实 际 上 是 重复 大 折 
交叉 验证 的 第 个 拆 分 ， 即 如 果 上 =10， 运 行 第 100 次 就 是 运行 第 10 次 交叉 验证 的 第 10 
折 。 产 生 器 的 唯一 目的 是 使 交叉 验证 实验 有 更 细 粒 度 的 分 布 。 如 果 类 别 属性 为 标 称 型 ， 数 
据 集会 分 层 。 

其 可 视 化 参数 如 下 。 


numFolds( 折 数 ): 设置 用 于 交叉 验证 的 折 数 。 默 认 值 为 10。 

outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 设置 rawOutput 选项 为 
True， 则 保存 从 splitEvaluator 输出 的 每 个 折 。 如 果 目 标 是 一 个 目录 ， 则 每 个 输出 
保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 保存 为 zip 文件 
中 的 一 个 条 目 。 默 认为 splitEvalutorOut.zip。 

IawOutput( 原 始 输出 ): 设置 是 否 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 
True， 则 将 输出 发 送 到 outputFile 选项 指定 的 目标 。 默 认为 False。 
splitEvaluator( 拆 分 评估 器 ): 设置 应 用 于 交叉 验证 折 的 评估 器 。 它 可 以 是 一 个 分 类 
器 、 回 归 方案 等 。 默 认为 ClassifierSplitEvaluator。 
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(4) DatabaseResultProducer 结果 产生 器 : 检查 数据 库 ， 提 取 指 定 的 resultProducer 所 产 
生 的 结果 ， 并 提交 给 指定 结果 监听 器 。 如 果 需 要 产生 结果 ， 结 果 产 生 器 用 于 获取 结果 。 
其 可 视 化 参数 如 下 。 


cacheKeyName( 缓 存 主 键 名 称 ): 设置 用 于 缓存 的 主键 字段 名 称 。 
databaseURL( 数 据 库 URL): 设置 数据 库 URL。 

debug( 调 试 ): 设置 是 否 打 印 调试 信息 。 默 认为 False。 

keywords( 关 键 字 ): 设置 SQL 语句 关键 字 。 默 认为 AND、ASC、BY、DESC、 
FROM、GROUP、INSERT、ORDER、SELECT、UPDATE 和 WHERE。 
keywordsMaskChar( 关 键 字 屏蔽 字符 ): 设置 关键 字 屏 蔽 字符 。 默 认为 “”。 
password( 密 码 ): 设置 用 于 连接 到 数据 库 的 密码 。 

resultProducer( 结 果 产 生 器 ): 设置 要 使 用 的 结果 产生 器 。 如 果 在 源 数据 库 中 没有 
发 现 某 些 结 果 ， 那 么 就 用 该 结果 产生 器 来 生成 这 些 结果 。 默 认为 
CrossValidationResultProducer。 

usermname( 用 户 名 ): 设置 用 于 连接 到 数据 库 的 用 户 名 。 


(5) ExplicitTestsetResultProducer 结果 产生 器 : 加 载 外 部 测试 集 ， 并 调用 相应 的 
SplitEvaluator 产生 一 些 结果 。 


该 结 


果 产 生 器 可 以 显 式 指定 测试 集 ， 测 试 集 的 文件 名 按 如 下 格式 构造 : 


<dir> + \ + <prefix> + <relation-name> + <suffix> 


其 中 ，dir 为 目录 ; prefix 为 前 级 ，relation-name 为 关系 名 称 ; suffix 为 后 级 。 
关系 名 称 可 以 通过 使 用 正则 表达 式 ， 用 指定 的 蔡 换 字符 串 替 换 匹 配 的 子 串 来 进行 修 
改 。 为 了 去 除 Weka 过 滤器 添加 到 关系 名 末尾 的 字符 串 ， 请 使 用 “.#-weka” 正 则 表达 式 


查找 。 


后 缀 确定 要 加 载 的 文件 类 型 ， 即 不 限于 ARFF 文件 。 只 要 Weka 能 够 识别 指定 后 级 中 
的 扩展 名 ， 就 会 使 用 适当 的 Weka 转换 器 来 加 载 数据 。 
其 可 视 化 参数 如 下 。 


outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 设 置 rawOutput 选项 为 
Trme， 则 保存 从 splitEvaluator 输出 的 单个 训练 -测试 划分 。 如 果 目 标 是 一 个 目 
录 ， 则 每 个 输出 保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 
保存 为 zip 文件 中 的 一 个 条 目 。 默 认为 splitEvalutorOut.zip。 
IandomizeData( 随 机 化 数据 ): 如 果 为 False， 则 不 执行 随机 化 数据 集 ， 也 不 执行 概 
率 四 舍 五 入 。 默 认为 False。 

rawOutput( 原 始 输出 ): 设置 是 否 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 
True， 则 将 输出 发 送 到 outputFile 选项 指定 的 目标 。 默 认为 False。 
relationFind( 关 系 查找 ): 设置 用 于 去 除 部 分 关系 名 的 正则 表达 式 ， 如 果 为 空 则 忽略 。 
relationReplace( 关 系 蔡 换 ): 设置 用 于 蔡 换 所 有 匹配 的 正则 表达 式 的 字符 串 。 
splitEvaluator( 拆 分 评估 器 ): 设置 应 用 于 测试 数据 的 评估 器 。 它 可 以 是 一 个 分 类 
器 、 回 归 方案 等 。 默 认为 CrossValidationResultProducer。 

testsetDir( 测 试 集 目录 ): 设置 包含 测试 集 的 目录 。 

testsetPrefix( 测 试 集 前 级 ): 设置 测试 集 文件 名 使 用 的 前 绥 。 


e@ testsetSuffix( 测 试 集 后 绥 ): 设置 测试 集 文 件 名 使 用 的 后 级 ， 必 须 包 含 文件 扩展 
名 。 默 认为 testarff。 
(6) LearningRateResultProducer 结果 产生 器 : 告诉 子 结果 产生 器 (sub-ResultProducen) 重 
现 当 前 运行 数据 集 的 不 同 大 小 的 子 样本 。 通 常 与 AveragingResultProducer 和 
CrossValidationResultProducer 一 同 使 用 ， 以 产生 学 习 曲 线 结果 。 对 于 非 数 值 的 结果 字段 ， 
使 用 第 一 个 值 。 
其 可 视 化 参数 如 下 。 
e@ ”lowerSize( 下 限 ): 设置 数据 集中 实例 的 最 小 数量 。 如 果 设 置 为 0， 实 际 上 会 在 第 
一 步 使 用 stepSize 个 实例 (因为 使 用 零 个 实例 没有 意义 )。 默 认 值 为 0。 

e@e “resultProducer( 结 果 产 生 器 ): 设置 产生 学 习 率 结果 的 结果 产生 器 。 默 认为 
AveragingResultProducer。 

e@ ”stepSize( 步 长 ): 设置 每 一 步 增加 的 实例 数量 。 默 认 值 为 10。 

e ”upperSize( 上 限 ): 设置 数据 集中 实例 的 最 大 数量 。 值 为 -1 表示 无 上 限 。 默 认 值 
为 -1。 

(7) RandomSplitResultProducer 结果 产生 器 : 产生 单个 的 训练 /测试 拆 分 ， 并 调用 适当 的 
SplitEvaluator 产生 一 些 结果 。 

其 可 视 化 参数 如 下 。 

e outputFile( 输 出 文件 ): 设置 保存 原始 输出 的 目标 。 如 果 设 置 rawOutput 选项 为 

Tme， 则 保存 从 splitEvaluator 输出 的 单个 训练 -测试 划分 。 如 果 目 标 是 一 个 目 
录 ， 则 每 个 输出 保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 是 一 个 文件 ， 则 每 个 输出 
保存 为 zip 文件 中 的 一 个 条 目 。 默 认为 splitEvalutorOut.zip。 

e ”randomizeData( 随 机 化 数据 ): 如 果 为 False， 则 不 执行 随机 化 数据 集 ， 也 不 执行 

概率 四 舍 五 入 。 默 认为 True。 

e IawOutput( 原 始 输出 ): 设置 是 否 保存 原始 输出 ， 调 试 时 很 有 用 。 如 果 设 置 为 

True， 则 将 输出 发 送 到 outputFile 选项 指定 的 目标 。 默 认 值 为 False。 
e splitEvaluator( 拆 分 评估 器 ): 设置 应 用 于 测试 数据 的 评估 器 。 它 可 以 是 一 个 分 类 
器 、 回 归 方案 等 。 默 认为 ClassifierSplitEvaluator。 

e trainPercent( 训 练 百 分 比 ): 设置 用 于 训练 的 数据 百分比 。 默 认 值 为 66.0。 

由 于 结果 产生 器 可 选 的 种 类 较 多 (七 种 )， 每 种 的 配置 不 尽 相 同 ， 因 此 会 在 下 一 节 中 针 
对 一 两 种 配置 为 例 进行 说 明 。 

上 述 某 些 结果 产生 器 中 有 一 个 splitEvaluator( 拆 分 评估 器 ) 选 项 ， 可 以 选择 如 下 四 种 评 
估 器 之 一 。 

(1) ClassifierSplitEvaluator 拆 分 评估 器 : 对 标 称 型 类 别 属性 的 分 类 方案 生成 结果 的 一 种 
拆 分 评估 器 。 

其 可 视 化 参数 如 下 。 

e attributeID( 属 性 ID): 设置 标识 实例 的 属性 索引 。 默 认 值 为 -1。 

e@ ”classForIRStatistics(IR 统计 类 别 索 引 ): 输出 食 统计 数据 对 应 的 类 别 索引 。 默 认 值 

为 0。 
e@ ”classifier( 分 类 器 ): 设置 使 用 的 分 类 器 。 默 认为 ZeroR 。 
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e ”noSizeDetermination( 不 测定 大 小 ): 如 果 设 置 为 True， 则 跳 过 对 训练 /测试 /分 类 器 
的 大 小 测定 。 默 认为 False。 

e ”predTargetColumn( 预 测 目标 列 ): 设置 是 否 为 每 个 折 添 加 目标 和 预测 列 到 结果 。 默 
认为 False。 

(2) CostSensitiveClassifierSplitEvaluator 拆 分 评估 器 : 对 标 称 型 类 别 属性 的 分 类 方案 生 

成 结果 的 一 种 拆 分 评估 器 ， 包 括 对 误 分 类 代价 加 权 。 

其 可 视 化 参数 如 下 。 

e attributeID( 属 性 ID): 设置 标识 实例 的 属性 索引 。 默 认 值 为 -1。 

e@ ”classForIRStatistics(IR 统计 类 别 索引 ): 输出 理 统计 数据 对 应 的 类 别 索 引 。 默 认 值 
为 0。 

e@ classifier( 分 类 器 ): 设置 使 用 的 分 类 器 。 默 认为 ZeroR 。 

e@ ”noSizeDetermination( 不 测定 大 小 ): 如 果 设 置 为 True， 则 跳 过 对 训练 /测试 /分 类 器 
的 大 小 测定 。 默 认为 False。 

e ”onDemandDirectory( 按 需 目录 ): 设置 寻找 代价 文件 的 目录 。 需 要 加 载 代价 文件 时 


将 搜索 该 目录 。 
e predTargetColumn( 预 测 目标 列 ): 设置 是 否 为 每 个 折 添 加 目标 和 预测 列 到 结果 。 默 
认为 False。 


(3) DensityBasedClustererSplitEvaluator 拆 分 评估 器 : 对 基于 密度 的 聚 类 方案 生成 结果 
的 一 种 拆 分 评估 器 。 
其 可 视 化 参数 如 下 。 
e clusterer( 聚 类 器 ): 设置 使 用 的 基于 密度 的 聚 类 器 。 可 选项 有 EM( 默 认 ) 和 
MakeDensityBasedClusterer。 
e@ ”noSizeDetermination( 不 测定 大 小 ): 如 果 设 置 为 True， 则 跳 过 对 训练 /测试 /分 类 器 
的 大 小 测定 。 默 认为 False。 
e ”removeClassColumn( 删 除 类 别 列 )， 如 果 设 置 为 True， 则 从 数据 中 删除 类 别 列 。 默 
认为 True。 
(4) RegressionSplitEvaluator 拆 分 评估 器 : 对 数值 型 类 别 属性 的 分 类 方案 生成 结果 的 一 
种 拆 分 评估 器 。 
其 可 视 化 参数 如 下 。 
e@ ”classifier( 分 类 器 ): 设置 使 用 的 分 类 器 。 默 认为 ZeroR。 
@ ”noSizeDetermination( 不 测定 大 小 ): 如 果 设 置 为 True， 则 跳 过 对 训练 /测试 /分 类 器 
的 大 小 测定 。 默 认为 False。 
4. 运行 
Runs( 运 行 ) 选 项 组 用 于 指定 实验 运行 次 数 。 该 选项 组 比较 简单 ，From 指定 起 始 运行 的 
次 数 ，To 指定 终止 运行 的 次 数 。 为 了 得 到 统计 学 上 有 意义 的 结果 ， 默 认 的 迭代 次 数 为 
10。 对 于 十 折 交 叉 验 证 ， 这 意味 着 调用 一 个 分 类 器 100 次 ， 运 行 训练 数据 并 对 测试 数据 
进行 测试 。 
Distribute experiment( 分 布 实验 ) 选 项 组 留待 后 文 讲 述 。 


5. 迭代 控制 

Iteration control( 和 迭代 控制 ) 选 项 组 用 于 设置 是 数据 集 优 先 还 是 用 户 定制 产生 器 优先 。 

Data sets first( 数 据 集 优 先 ) 单 选 按钮 和 Custom generator first( 用 户 定制 产生 器 优先 ) 单 选 
按钮 构成 一 个 单 选 按钮 组 ， 用 于 设置 这 两 者 究竟 何者 优先 。 只 要 有 一 个 以 上 的 数据 集 和 用 
户 定制 产生 器 ， 就 可 以 选择 优先 遍历 数据 集 还 是 优先 遍历 产生 器 。 如 果 用 户 将 结果 存储 在 
数据 库 中 ， 并 希望 尽早 完成 用 一 个 算法 处 理 全 部 数据 集 的 结果 ， 可 选择 数据 集 优 先 ; 反 
之 ， 则 选择 用 户 定制 产生 器 优先 。 


6. 数据 集 


Datasets( 数 据 集 ) 选 项 组 用 于 定义 学 习 算法 要 处 理 的 数据 集 。 首 先 选中 Use relative 
paths( 使 用 相对 路 径 ) 复 选 框 ， 然 后 单 击 Add new 按钮 。 在 打开 的 对 话 框 中 双击 data 目录 ， 
查看 Weka 自 带 的 数据 集 ， 也 可 以 浏览 其 他 数据 集 所 在 目录 。 这 里 选择 iris.arff 文件 ， 并 单 
击 Open 按钮 打开 高 尾 花 数据 集 。 数 据 集 名称 就 会 显示 在 Datasets 选项 组 中 ， 如 图 4.17 
所 示 。 

如 果 还 想 添加 其 他 数据 集 ， 可 再 次 单 击 Add new 按钮 。 

此 外 ， 如 果 要 编辑 某 个 数据 集 ， 可 先 选 中 该 数据 集 ， 然 后 单 击 Edit selected( 编 辑 所 选 ) 
按钮 ， 在 弹出 的 Viewer 对 话 框 中 进行 编辑 ， 如 图 4.18 所 示 。 如 果 不 再 使 用 某 个 数据 集 ， 
可 先 选中 该 数据 集 ， 然 后 单 击 Delete selected( 删 除 所 选 ) 按 钮 以 删除 所 选 的 数据 集 。 
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图 4.17 打开 营 尾 花 数据 集 


7. 产生 器 特性 


Generator properties( 产 生 器 特性 ) 选 项 组 用 于 添加 额 
外 的 算法 。 首 先 ， 单 击 Select property( 选 择 特性 ) 按 钮 ， 
Weka 会 弹出 如 图 4.19 所 示 的 Select a property 对 话 框 。 
如 果 Select property 按钮 是 灰色 的 ， 可 在 按钮 左边 的 下 拉 
列表 框 中 选择 Enabled 选项 。 

在 Select a property 对 话 框 中 展开 splitEvaluator 条 目 
并 选择 classifier 条 目 ， 然 后 单 击 Select 按钮 ， 可 以 看 到 
默认 的 方案 名 称 已 经 显示 在 Generator properties 选项 组 下 
的 列表 框 中 ， 如 图 4.20 所 示 。 图 4.19 Select a property 对 话 框 
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数据 挖 所 与 机 器 学 习 
如 果 要 添加 其 他 方案 ， 可 单 击 Choose 按钮 以 显示 分 层 列表 。 假 如 要 添加 J48 决策 树 方 
案 ， 选 择 trees 条 目下 的 J48 组 件 ， 新 方案 便 已 经 显示 在 Choose 按钮 后 的 文本 框 中 ， 单 击 
Add 按钮 可 将 新 方案 添加 到 下 面 的 列表 框 中 ， 如 图 4.21 所 示 。 
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图 4.20 Generator properties 选项 组 图 4.21 添加 J48 方案 

当 运 行 实验 时 ， 会 为 所 添加 的 两 个 方案 产生 结果 。 

如 果 还 需要 添加 额外 方案 ， 可 重复 上 述 过 程 。 如 果 要 删除 方案 ， 可 先 选择 要 删除 的 方 
案 ， 然 后 单 击 Delete 按钮 。Edit 按钮 可 用 于 修改 方案 参数 ，Up 按钮 和 Down 按钮 可 用 于 
对 多 个 方案 进行 排序 。 

8. 运行 实验 

高 级 实验 与 简单 实验 只 是 在 Setup 标签 页 上 有 所 区 别 ， 在 Run 标签 页 上 没有 任何 区 别 。 
在 高 级 实验 模式 下 运行 实验 的 方法 与 在 简单 实验 模式 下 没有 什么 不 同 ， 这 里 就 不 再 灼 述 了 。 


4.2.3 手把手 教 你 用 
1. 简单 实验 初步 


本 示例 使 用 营 尾 花 数 据 集 ， 比 较 J48 决策 树 算法 和 作为 基线 算法 的 OneR 和 ZeroR 算法 。 

首先 启动 实验 者 界面 ， 单 击 界面 右上 部 的 New 按钮 ， 可 以 看 到 实验 者 界面 的 大 部 分 功 
能 变 得 可 用 。 然 后 ， 在 Result Destination 选项 组 中 ， 选 择 文件 格式 为 CSV file， 单 击 同一 
行 最 右边 的 Browse 按钮 ， 打 开 “ 保 存 ” 对 话 框 ， 选 择 目标 目录 ， 在 “文件 名 ”文本 框 中 
输入 文件 名 为 Experiment1，“ 文 件 类 型 ”保持 为 Comma separated value files( 喜 号 分 隔 值 
文件 )， 单 击 “ 保 存 ” 按 钮 保存 文件 ， 如 图 4.22 所 示 。 


4.22 ”保存 结果 文件 


下 一 步 ， 选 择 数据 集 。 首 先 选 中 Datasets 选项 组 中 的 Use relative paths 复 选 框 ， 然 后 
单 击 Add new 按钮 ， 选 择 data\iris.arff 文件 。 在 窗口 右 下 部 的 Algorithms 选项 组 中 ， 单 击 
Add new 按钮 ， 会 弹出 一 个 标准 的 Weka 通用 对 象 编辑 器 对 话 框 ， 先 选择 J48 决策 树 ， 保 
持 分 类 器 的 默认 选项 不 变 ， 单 击 OK 按钮 确认 选择 。 然 后 选择 OneR 和 ZeroR 分 类 器 。 现 
在 已 经 设置 好 了 一 个 简单 的 实验 ， 如 图 4.23 所 示 。 


4.23 ”设置 完毕 的 实验 


下 面 先 测试 一 下 保存 实验 设置 。 单 击 Save 按钮 保存 实验 设置 ， 然 后 关闭 实验 者 界面 再 
重新 打开 ， 单 击 Open 按钮 打开 刚才 保存 的 实验 设置 ， 界 面 应 该 恢复 成 图 4.23 所 示 的 原样 。 

下 一 步 ， 运 行 实验 。 切 换 至 Run 标签 页 ， 单 击 Start 按钮 启动 实验 的 运行 。 稍 等 片 
刻 ，Log 区 域 中 就 会 出 现 三 条 信息 。 同 时 ， 在 Weka 安装 目录 的 output 子 目 录 中 生成 一 个 
名 称 为 Experimentl.csv 的 文件 ， 其 内 容 为 实验 结果 。CSV 格式 的 文件 可 以 直接 用 电子 表 


图 4.24 实验 结果 文件 


2. 使 用 数据 库 

本 示例 展示 如 何 使 用 数据 库存 储 实验 结果 。 

在 实验 之 前 ， 一 定 要 按照 本 书 第 1 章 中 “数据 库 设置 ”部 分 的 内 容 配 置 
DatabaseUtils .props 文件 ， 和 否则 无 法 访问 数据 库 。 

首先 启动 实验 者 界面 ， 单 击 界面 右上 部 的 New 按钮 ， 并 在 Results Destination 选项 组 
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数据 近 所 机 器 学习 
中 单 击 下 拉 列 表 框 ， 将 结果 目标 修改 为 JDBC 
database。 然 后 ， 单 击 User 按钮 ， 在 弹出 的 对 话 框 
中 设置 数据 库 连接 参数 ， 如 图 4.25 所 示 。 这 里 的 
Database URL( 数 据 库 URL)、Usermame( 用 户 名 ) 和 
Password( 密 码 ) 要 根据 自己 计算 机 的 设置 来 配置 。 
单 击 OK 按钮 关闭 对 话 框 。 即 使 数据 库 参 数 设 
置 有 误 ， 这 时 也 不 会 有 任何 提示 ，Weka 在 运行 实验 图 4.25 设置 数据 库 连接 参数 
时 才 会 去 尝试 连接 数据 库 ， 那 时 才 会 报错 。 
按照 上 一 个 示例 的 方法 设置 Setup 标签 页 的 其 他 选项 ， 完 成 后 的 界面 如 图 4.26 所 示 。 
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4.26 ”完成 其 他 设置 


切换 至 Run 标签 页 ， 单 击 Start 按钮 启动 实验 的 运行 ， 注 意 观 察 Run 标签 页 下 面 的 
Status( 状 态 ) 区 域 ， 看 是 否 正 常 运行 。 待 运行 完毕 后 ， 用 Navicat 或 其 他 工具 打开 数据 库 ， 
可 以 看 到 数据 库 中 已 经 生成 了 两 个 表 ， 如 图 4.27 所 示 。 


图 4.27 数据 库 中 生成 的 两 个 表 


分 别 打 开 两 个 表 进 行 研究 ， 如 图 4.28 所 示 。experiment index 表 记 录 运 行 的 基本 信 
息 。 第 一 次 运行 ， 该 表 会 添加 一 条 记录 ， 记 录 实 验 类 型 (Experiment type) 、 设 置 
(Experiment setup) 以 及 结果 表 的 序号 (Result table)， 当 前 的 序号 为 0， 表 示 结 果 表 的 名 称 为 
results0， 如 果 想 保存 当前 运行 结果 ， 并 运行 其 他 实验 ， 可 以 尝试 将 序号 命名 为 1]、2、…'， 
结果 表 名 称 就 会 按照 results1、results2… 的 顺序 命名 。results0 表 中 共有 300 条 记录 ， 每 条 
记录 代表 实验 的 一 次 运行 。 
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4.28 ” 表 内 容 


3. 高 级 实验 初步 


本 示例 展示 如 何 使 用 Weka 实验 者 界面 的 高 级 实验 模式 。 
首先 启动 实验 者 界面 ， 选 择 Advanced 选项 ， 切 换 至 高 级 模式 ， 单 击 New 按钮 初始 化 
实验 ， 这 使 得 Weka 实验 者 界面 以 默认 参数 定义 实验 。 


和 注意 ;。 先 选 择 高 级 模式 再 单 击 New 按钮 与 先 单 击 New 按钮 再 选择 高 级 模式 的 结果 
稍 有 不 同 ， 区 别 是 : 前 者 的 Result generator 是 RandomSplitResultProducer， 
且 Generator properties 的 状态 是 Disabled; 后 者 的 Result generator 是 
CrossValidationResultProducer， 且 Generator properties 的 状态 是 Enabled。 


下 一 步 ， 定 义 方案 处 理 的 数据 集 。 首 先 在 Datasets 选项 组 中 选中 Use relative paths 复 
选 框 ， 然 后 单 击 Add new 按钮 ， 在 弹出 的 “打开 ”对 话 框 中 选择 iris.arff 数据 文件 。 这 
时 ，Datasets 选项 组 中 会 显示 打开 的 数据 集 名 称 。 

下 一 步 ， 设 置 保存 实验 结果 。 为 了 将 实验 结果 发 送 到 指定 的 目标 ， 单 击 Destination 选 
项 组 中 默认 的 InstancesResultListener 条 目 ， 弹 出 如 图 4.29 所 示 的 通用 对 象 编辑 器 对 话 框 ， 
outputFile 文本 框 中 显示 输出 文件 参数 。 

单 击 Browse 按钮 ， 会 弹出 一 个 对 话 框 ， 默 认 的 目标 文件 目录 是 系统 的 临时 目录 ， 可 
以 导航 至 自己 希望 的 目标 目录 ， 并 且 在 “文件 名 ”文本 框 中 输入 目标 文件 名 为 
Experimentl.arff， 如 图 4.30 所 示 。 单 击 “ 保 存 ” 按 钮 确认 目标 文件 ， 然 后 单 击 OK 按钮 关 
闭 通用 对 象 编辑 器 对 话 框 。 可 以 看 到 Destination 选项 组 中 显示 了 选择 的 目标 文件 。 

现在 可 以 尝试 运行 一 下 实验 ， 虽 然 这 时 还 没有 选择 学 习 方 案 ， 但 默认 的 学 习 方案 是 
ZeroR。 切 换 至 Run 标签 页 ， 当 前 实验 针对 iris 数据 集 完 成 10 次 随机 化 训练 和 测试 运行 ， 
使 用 ZeroR 方案 ， 将 66% 的 数据 集 用 于 训练 ，34% 的 数据 集 用 于 测试 。 单 击 Start 按钮 运行 
实验 ，Log 区 域 中 应 该 显示 三 条 信息 ， 表 示 实 验 运行 成 功 ， 并 且 将 实验 结果 保存 到 
Experimentl.arff 文件 。 读 者 可 使 用 任意 文本 编辑 器 打开 该 文件 ， 了 解 实验 结果 的 格式 。 
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图 4.29 输出 文件 参数 图 4.30 设置 输出 文件 


下 一 步 ， 改 变 实验 参数 。 首 先 改变 分 类 器 ， 然 后 增加 额外 学 习 方案 ， 最 后 检查 原始 输 
出 。 下 面 详细 讲述 这 三 个 步骤 。 

单 击 Result generator 选项 组 中 的 文本 框 ，Weka 会 弹出 如 图 4.31 所 示 的 通用 对 象 编辑 
器 对 话 框 ， 可 以 更 改 实验 参数 。 
当前 使 用 的 结果 产生 器 是 RandomSplitResultProducer， 其 功能 是 生成 一 个 单独 的 训练 
集 和 测试 集 的 拆 分 ， 调 用 适当 的 SplitEvaluator( 拆 分 评估 器 ) 以 产生 一 定 结果 。 可 以 设置 五 
个 参数 ， 其 中 ，outputFile 参数 用 于 设置 保存 原始 输出 的 目标 文件 ， 以 备 将 来 使 用 ， 默 认 的 
输出 目标 文件 为 splitEvalutorOut.zip。 如 果 设 置 rawOutput 选项 为 True， 则 将 保存 从 
splitEvaluator 输出 的 单独 的 训练 -测试 拆 分 的 原始 输出 ， 在 调试 时 十 分 有 用 。 如 果 目 标 为 一 
个 目录 ， 那 么 每 个 输出 保存 为 一 个 单独 的 gzip 文件 ， 如 果 目 标 为 一 个 文件 ， 那 么 每 个 输出 
保存 为 zip 文件 中 的 一 个 条 目 。randomizeData 参数 是 布尔 型 ， 如 果 为 False， 则 不 对 数据 
集 进行 随机 化 ， 且 不 执行 概率 的 四 舍 五 入 。splitEvaluator 参数 用 于 设置 应 用 测试 数据 的 评 
估 器 ， 可 以 是 分 类 器 、 回 归 算 法 等 。trainPercent 参数 设置 用 于 训练 的 数据 百分比 。 


困 注意 : ”运行 次 数 不 在 这 里 设 定 ， 而 是 在 Setup 标签 页 的 Runs 选项 组 中 设 定 。 


如 果 想 查阅 结果 产生 器 的 功能 和 用 法 ， 可 以 单 击 图 4.31 所 示 对 话 框 中 的 More 按钮 。 
单 击 splitEvaluator 参数 条 目 ， 会 弹出 另 一 个 通用 对 象 编辑 器 对 话 框 ， 可 以 修改 拆 分 评 
估 器 的 参数 ， 如 图 4.32 所 示 。 
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图 4.31 通用 对 象 编辑 器 对 话 框 图 4.32 拆 分 评估 器 参数 
在 图 4.32 中 ，ClassifierSplitEvaluator 是 分 类 器 的 拆 分 评估 器 ， 它 对 标 称 型 类 别 属性 的 
分 类 算法 产生 的 结果 进行 评估 。 如 果 设 置 noSizeDetermination 参数 为 True， 将 忽略 训练 / 测 
试 / 分 类 器 的 大 小 判定 。 如 果 predTargetColumn 参数 为 True， 将 为 每 个 折 添 加 目标 和 预测 


列 到 结果 。 

classifier 参数 指定 所 使 用 的 分 类 器 ， 这 里 默认 的 分 类 算法 为 ZeroR， 单 击 Choose 按 
钮 ， 可 以 选择 不 同 的 分 类 算法 。 如 果 单 击 该 按钮 旁边 的 文本 框 ， 就 可 以 在 通用 对 象 编辑 器 
中 变更 算法 的 参数 。 在 这 里 ，ZeroR 算法 的 四 个 参数 几乎 没有 可 修改 的 。 但 其 他 大 多 数 算 
法 都 可 以 由 用 户 修改 其 属性 ， 比 如 J48 决策 树 算法 ， 可 以 修改 多 个 参数 。 这 里 尝试 将 分 类 
算法 更 改 为 48， 然后 单 击 OK 按钮 以 关闭 该 对 话 框 。 

修改 完毕 后 ，Result generator 选项 组 中 就 会 显示 新 的 实验 参数 方案 。 

下 面 添加 额外 的 学 习 方案 。 按 照 上 一 节 中 “产生 器 特性 ”部 分 所 述 的 方法 ， 添 加 
ZeroR 和 J48 学 习 方 案 ， 添 加 完毕 后 的 界面 如 图 4.33 所 示 。 

最 后 检查 原始 输出 。 在 实验 过 程 中 ， 学 习 方案 产生 的 原始 输出 可 以 保存 到 文件 ， 以 便 
将 来 检查 。 单 击 Result generator 选项 组 中 的 文本 框 ， 打 开通 用 对 象 编辑 器 ， 将 rawOutput 
选项 设置 为 True， 如 图 4.34 所 示 。 原 始 输出 文件 默认 为 splitEvalutorOut.zip， 用 户 可 以 修 
改 outputFile 选项 以 更 改 默认 文件 设置 。 
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图 4.33 添加 额外 的 学 习 方案 图 4.34 设置 原始 输出 


王 注意 :每 次 更 改 Result generator 参数 之 后 ，Generator properties 的 状态 都 会 变 成 
Disabled， 因 此 需要 重新 设置 学 习 方 案 。 


至 此 ， 全 部 设置 已 经 完成 ， 运 行 实验 后 ， 在 Weka 安装 目录 下 可 以 找到 原始 输出 文件 
splitEvalutorOut.zip， 打 开 后 的 文件 内 容 如 图 4.35 所 示 。 


图 4.35 原始 输出 文件 
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一 一 WEKA 应 用 用 


More 按钮 可 以 查看 CrossValidationResultProducer 功能 的 简单 描述 。 
修改 参数 后 的 产生 器 方案 会 在 Result generator 选项 组 中 显示 ， 请 尘 


组 中 加 入 多 个 学 习 方 案 ， 如 图 4.37 所 示 ， 这 些 方案 在 交叉 验证 时 运行 。 


使 用 任意 的 文本 编辑 器 打开 第 二 个 文件 ， 文 件 内 容 如 下 : 


ClassifierSplitEvaluator: weka.classifiers.trees.J48 -C 0.25 -M 2(version — 


217733168393644444) Classifier model: 
J48 pruned tree 


petalwidth <= 0.6: Iris-setosa (33.0) 
petalwidth > 0.6 

| petalwidth <= 1.5: Iris-versicolor (31.0/1.0) 
| petalwidth > 1.5: Iris-virginica (35.0/3.0) 


Number of Leaves : 3 

Size of the tree : 5 

Correctly Classified Instances 47 
Incorrectly Classified Instances 4 

Kappa statistic 0.8824 

Mean absolute error 0.0723 

Root mean squared error 0.2191 
Relative absolute error 16.2754 $% 
Root relative squared error 46.4676 $ 
Coverage of cases (0.95 level) 96.0784 $ 
Mean rel. region size (0.95 level) 44.4444 委 
Total Number of Instances 51 


measureTreeSize : 5.0 
measureNumLeaves : 3.0 
measureNumRules : 3.0 


可 见 ， 原 始 输出 文件 无 非 就 是 使 用 所 选 的 分 类 器 对 数据 集 的 训练 和 测试 结果 。 


4. 使 用 其 他 结果 产生 器 


上 一 个 示例 展示 的 是 随机 的 训练 和 测试 实验 ， 本 示例 在 上 一 个 实验 的 基础 上 ， 扩 展 到 
使 用 其 他 的 结果 产生 器 来 完成 实验 。 
首先 看 交叉 验证 结果 产生 器 。 在 Setup 标签 页 中 单 击 Result generator 选项 组 中 的 
Choose 按钮 ， 选 择 CrossValidationResultProducer， 再 单 击 Choose 按钮 旁边 的 文本 框 ， 弹 
出 如 图 4.36 所 示 的 通用 对 象 编辑 器 对 话 框 。 该 对 话 框 中 包含 的 是 交叉 验证 的 具体 参数 ， 如 
划分 的 折 数 (oumFolds) 等 。 实 验 默 认 进 行 十 折 交 叉 验 证 ， 而 不 是 在 给 定 的 例子 上 进行 训练 
和 测试 。splitEvaluator 参数 默认 使 用 学 习 方 案 为 ZeroR 的 ClassifierSplitEvaluator。 单 直 


E 意 观察 。 


站 


与 上 一 个 示例 中 的 RandomSplitResultProducer 一 样 ， 可 以 在 Generator properties 选项 


运行 次 数 (Runs) 维 持 为 默认 的 10 次 ， 因 此 对 于 每 一 个 学 习 方 案 和 数据 集 ， 一 共 运 行 
100 次 交叉 验证 。 运 行 本 实验 后 进行 分 析 ， 在 Analyse 标签 页 中 单 击 Experiment 按钮 ， 产 


生 如 图 4.38 所 示 的 结果 。 注 意 到 一 共处 理 了 300 条 结果 记录 ，10 次 运行 乘 以 10 折 再 乘 以 
3 个 方案 等 于 300。 详 细 的 结果 分 析 方 法 请 参见 4.4 节 。 
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图 4.38 运行 分 析 


下 面 尝试 使 用 平均 结果 产生 器 。AveragingResultProducer 是 CrossValidationResultProducer 
的 一 种 替代 方案 ， 这 种 结果 产生 器 取 一 组 运行 结果 的 平均 ， 典 型 为 取 交 叉 验 证 运行 结果 的 
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平均 。 首 先 单 击 Result generator 选项 组 中 的 Choose 按钮 ， 选 择 AveragingResultProducer， 
再 单 击 Choose 按钮 旁边 的 文本 框 ， 弹 出 如 图 4.39 所 示 的 通用 对 象 编辑 器 对 话 框 。 

单 击 resultProducer 参数 后 面 的 文本 框 ， 弹 出 如 图 4.40 所 示 的 通用 对 象 编辑 器 对 话 
框 。splitEvaluator 参数 显示 默认 使 用 的 拆 分 评估 器 为 ClassifierSplitEvaluator， 其 默认 学 习 
方案 为 ZeroR。 
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图 4.39 平均 结果 产生 器 选项 图 4.40 结果 产生 器 选项 


与 其 他 结果 产生 器 一 样 ， 平 均 结果 产生 器 也 可 以 定义 额 
外 的 学 习 方案 。 当 使 用 AveragingResultProducer 时 ， 分 类 器 
特性 位 于 更 深层 次 的 结构 中 ， 如 图 4.41 所 示 。 这 时 ， 由 于 
ZeroR 是 默认 的 学 习 方案 ， 选 中 classifier 再 单 击 Select 按钮 
就 是 选择 ZeroR 方案 。 

如 果 要 选择 其 他 学 习 方 案 ， 可 单 击 Generator properties 
选项 组 中 的 Choose 按钮 进行 选择 。 如 图 4.42 所 示 为 加 入 
ZeroR、OneR 和 J48 学 习 方案 后 的 Setup 标签 页 。 


4.42 ”加 入 多 个 学 习 方案 


在 本 实验 中 ， 使 用 十 折 交 叉 验 证 运行 ZeroR、OneR 和 J48 学 习 方 案 各 10 次 。 然 后 ， 
对 每 一 组 10 次 交叉 验证 的 每 次 运行 取 平 均值 ， 每 次 运行 产生 一 个 结果 行 ， 一 共 30 个 结果 


| 


图 4.43 所 示 。 


于 。 而 不 像 在 前 面 的 例子 中 使 用 CrossValidationResultProducer 时 对 每 个 折 都 产生 一 个 结果 
， 如 果 保 存 原始 输出 ， 会 将 所 有 300 个 结果 都 发 送 到 归档 文件 。 注 意 ， 虽 然 结 果 行 有 30 
， 但 原始 输出 不 是 30 个 ， 而 是 所 有 的 300 个 结果 。 使 用 平均 结果 产生 器 的 运行 结果 如 


4.43 ”平均 结果 产生 器 运行 结果 


最 后 ， 尝 试 使 用 明确 指定 测试 集 的 结果 产生 器 。 在 过 去 ， 实 验 者 界面 的 最 大 弊端 之 一 
就 是 无 法 提供 测试 集 。 尽 管 除了 随机 化 训练 数据 ， 以 便 测试 分 类 器 的 健壮 性 外 ， 重 复 运行 
明确 指定 的 测试 集 似乎 并 没有 多 大 的 意义 ， 但 是 ， 明 确 指定 测试 集 提 供 了 并 行 比较 不 同 的 


分 类 器 和 分 类 器 设置 的 可 能 性 ， 这 是 探索 者 界面 欠缺 
的 功能 。 

首先 选择 数据 集 ， 在 Datasets 选项 组 中 删除 原来 
的 数据 集 ， 改 为 使 用 segment-challenge.arff 作为 训 
练 集 。 

下 面 设置 测试 集 。 单 击 Result generator 选项 组 中 
的 Choose 按钮 ， 选 择 ExplicitTestsetResultProducer， 
该 结果 产生 器 可 以 加 载 外 部 测试 集 。 单 击 Choose 按钮 
旁边 的 文本 框 ， 弹 出 结果 产生 器 的 通用 对 象 编辑 器 。 
单 击 testsetDir 文本 框 ， 选 择 测试 集 目录 为 data， 清 除 
testsetPrefix 的 内 容 ， 将 testsetSuffix 选项 更 改 为 
-test.arff( 注 意 是 减 号 而 不 是 下 划 线 )， 如 图 4.44 所 示 。 


<dir> + \ + <prefix> + <relation -name> + <suffix> 
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图 4.44 设置 结果 产生 器 选项 
这 样 ， 按 照 4.2.2 节 中 介绍 的 测试 集 文件 名 的 构造 方式 ， 即 


测试 集 文件 名 为 data\segment-test.arff， 刚 好 为 测试 文件 。 这 里 的 关系 名 称 ( 由 @relation 定 
义 ) 为 segment， 可 以 打开 训练 文件 segment-challenge.arff 确 认 一 下 。 
与 其 他 结果 产生 器 相 比 ，ExplicitTestsetResultProducer 最 大 的 不 同 就 是 可 以 明确 指定 测 
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试 集 。 其 他 的 功能 尝试 就 留 给 读者 自行 练习 。 

5. 聚 类 器 实验 

使 用 实验 者 界面 的 高 级 模式 ， 不 但 可 以 运行 分 类 器 算法 实验 ， 还 可 以 运行 聚 类 器 算法 
实验 ， 这 是 实验 者 界面 的 简单 模式 没有 的 功能 。 聚 类 器 算法 实验 局 限于 那些 可 以 计算 概率 
密度 估计 的 聚 类 器 ， 其 主要 评估 指标 是 各 聚 类 器 发 现 的 簇 的 对 数 似 然 。 下 面 的 示例 就 将 使 
用 聚 类 器 设置 交叉 验证 实验 。 

首先 ， 在 Datasets 选项 组 中 添加 data\iris.arff 和 data\glass.arff 数据 文件 ， 在 Result 
generator 选项 组 中 选择 CrossValidationResultProducer 作为 结果 产生 器 ， 并 打开 结果 产生 器 
的 通用 对 象 编辑 器 以 设置 选项 。 单 击 splitEvaluator 参数 旁边 的 Choose 按钮 ， 将 该 选项 设 
置 为 DensityBasedClustererSplitEvaluator， 这 是 基于 密度 聚 类 器 的 拆 分 评估 器 ， 如 图 4.45 
所 示 。 


图 4.45 选择 拆 分 评估 器 


然后 ， 单 击 Choose 按钮 右边 的 文本 框 ， 设 置 DensityBasedClustererSplitEvaluator 的 选 
项 ， 如 图 4.46 所 示 。 注 意 到 removeClassColumn 选项 默认 为 True， 即 设置 为 移 除 类 别 属 
性 。 如 果 用 户 想 要 保持 类 别 属 性 ， 可 以 将 removeClassColumn 选项 设置 为 False。 
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4.46 ” 拆 分 评估 器 选项 


一 旦 选 定 DensityBasedClustererSplitEvaluator 之 后 ， 可 以 注意 到 Generator properties 选 
项 组 已 经 禁用 。 单 击 下 拉 列 表 框 选择 Enabled 选项 启用 该 选项 组 以 扩展 splitEvaluator， 会 
弹出 Select a property 对 话 框 ， 单 击 选 择 clusterer 节点 ， 然 后 单 击 Select 按钮 确认 选择 ， 如 
图 4.47 所 示 。 


© 


4.47 选择 clusterer 节点 


现在 可 以 看 到 ，EM 算法 成 为 默认 的 聚 类 器 被 添加 到 方案 列表 中 。 用 户 可 以 根据 需要 
添加 或 删除 其 他 的 聚 类 器 。 例 如 ， 图 4.48 所 示 方 案 添加 了 SimpeKMeans 算法 。 该 算法 由 
MakeDensityBasedClusterer 包装 ， 这 是 因为 在 Weka 中 ， 大 多 数 其 他 聚 类 器 都 不 会 产生 密 
度 估计 ， 因 此 不 得 不 由 MakeDensityBasedClusterer 包装 。 
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4.48 添加 其 他 方案 


下 一 步 ， 运 行 实验 ， 完 成 后 切换 至 Analyse 标签 页 分 析 结 果 。 先 单 击 Experiment 按钮 
获取 运行 结果 ， 然 后 将 Comparison field 选项 设置 为 Log likelihood， 最 后 单 击 Perform test 
按钮 运行 测试 ， 运 行 结果 如 图 4.49 所 示 。 可 以 看 到 ，(1) 为 SimpleKMeans 算法 ，(2) 为 EM 
算法 ， 两 个 数据 集 的 实验 结果 表明 EM 算法 优 于 SimpleKMeans 算法 。 实 验 结果 分 析 的 具 
体内 容 可 参见 4.4 节 。 


4.49 ”运行 结果 
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4.3 远程 实验 


实验 者 界面 的 一 个 非常 优异 的 特性 是 ， 它 可 以 对 实验 进行 拆 分 ， 然 后 在 多 个 处 理 器 或 

台 计 算 机 之 间 进 行 分 布 式 计算 ， 也 就 是 将 实验 的 计算 负荷 分 布 到 多 台 网 络 计算 机 上 进行 
并 行 计算 。 这 称 为 远程 实验 ， 或 直接 叫 作 分 布 实验 。 远 程 实验 是 一 种 高 级 功能 ， 使 用 起 来 
往往 非常 困难 。 例 如 ， 文 件 和 目录 权限 的 设置 可 能 非常 款 手 ， 尤 其 是 对 于 从 未 做 过 类 似 工 
作 的 新 手 ， 一 个 简单 的 问题 往往 会 困扰 他 们 很 长 时 间 。 因 此 ， 建 议 新 手 跳 过 这 一 节 ， 待 水 
平 提升 后 再 尝试 进行 远程 实验 。 另 外 ， 建 议 新 手 学 习 一 些 Java RMI 的 知识 备用 。 


4.3.1 远程 实验 设置 
1. 实验 要 求 


远程 实验 在 将 结果 存放 到 中 心 数据 库 时 工作 性 能 最 佳 。 因 此 在 实验 者 界面 的 高 级 模式 
中 ， 选 择 JDBC database 作为 结果 目标 。 远 程 实验 的 分 布 式 计算 使 用 Java RMI 机 制 ， 可 以 
工作 在 任意 的 支持 JDBC 驱动 的 数据 库 中 ， 而 且 ，Weka 开发 者 已 经 在 包括 MySQL 等 多 种 
免费 数据 库 中 进行 过 测试 。 当 然 ， 如 果 不 使 用 数据 库 ， 使 用 文件 系统 也 是 可 以 的 ， 可 以 指 
定 各 台 主 机 将 它们 的 实验 结果 保存 为 不 同 的 ARFF 文件 ， 最 后 再 合并 这 些 文件 。 但 很 显 
然 ， 这 样 要 麻烦 一 些 。 

进行 远程 实验 ， 每 台 主 机 必须 满足 如 下 要 求 。 

(1) 安装 Java。 

(2) 能 够 访问 要 用 到 的 数据 集 。 

(3) 运行 weka.experiment.RemoteEngine 实验 服务 器 。 

其 中 ， 安 装 Java 比较 容易 。 要 求 每 台 主机 都 能 够 访问 要 用 到 的 数据 集 要 困难 一 些 ， 最 
好 的 做 法 是 将 数据 集 文件 复制 到 每 台 主机 ， 并 且 将 这 些 文件 放 到 与 remoteEngine.jar 文件 相 
同 的 相对 位 置 。 例 如 ， 假 设 remoteEngine.jar 文件 在 experiment\remote_engine 目录 中 ， 再 
将 数据 集 文 件 放 到 experiment\datasets 目录 中 ， 这 样 ， 通 过 相对 路 径 “..\datasets” 就 可 以 访 
问 数据 集 。 

如 果 要 将 实验 结果 放 到 中 心 数据 库 中 ， 需 要 在 每 台 主机 中 安装 JDBC 驱动 程序 ， 并 且 
在 中 心 数据 库 做 必要 的 设置 ， 使 得 每 台 主 机 都 能 访问 数据 库 。 

2. 启动 远程 引擎 和 实验 者 界面 

要 在 主机 中 启动 实验 服务 器 远程 引擎 ， 首 先 应 从 Weka 安装 目录 中 复制 
remoteExperimentServer.jar 文件 到 主机 目录 ， 然 后 使 用 如 下 命令 进行 解压 缩 : 


jar -xvf remoteExperimentServer.jar 


当然 ， 不 习惯 使 用 命令 行 的 读者 可 以 尝试 使 用 WinRAR 等 实用 程序 打开 
ITemoteExperimentServerjar 文件 ， 然 后 解压 缩 到 目标 目录 。 

解压 缩 出 来 的 文件 一 共有 三 个 : remoteEngine.jar、remote.policy 和 remote policy.example。 
其 中 ，remoteEngine.jar 是 一 个 包含 实验 服务 器 的 可 执行 jar 文件 ， 另 外 两 个 文件 都 是 Java 


安全 策略 文件 。remote.policy 授予 远程 引擎 执行 某 些 操作 的 权限 ， 如 连接 到 某 个 端口 或 访 
问 某 个 目录 。 该 文件 需要 用 户 根据 自己 的 配置 进行 编辑 ， 为 某 些 权限 指定 正确 的 路 径 。 
remote.policy.example 则 是 示例 ， 供 用 户 参 考 。 对 于 有 Java 分 布 式 编程 经 验 的 用 户 而 言 ， 
在 仔细 研究 文件 后 ， 很 容易 理解 文件 的 结构 和 含义 。 但 对 于 一 般 用 户 而 言 ， 搞 清楚 文件 的 
结构 还 是 有 相当 的 难度 。 默 认 情 况 下 ， 指 定 代码 使 用 HTTP 端口 80 从 网 络 上 下 载 ， 但 远 
程 引 擎 也 可 以 指定 从 文件 URL 加 载 代码 。 要 做 到 这 一 点 ， 可 以 去 掉 remote.policy 文件 中 
例子 的 注释 ， 或 者 修改 remote.policy.example 文件 以 满足 实际 需要 。remote.policy.example 
文件 中 包含 一 个 在 Linux 操作 系统 下 ， 一 个 虚构 的 用 户 johndoe 的 完整 例子 。 远 程 引擎 还 
需要 能 够 访问 实验 中 使 用 的 数据 集 ， 参 见 remote policy 文件 的 第 一 个 条 目 。 数 据 集 路 径 由 
实验 者 ( 即 客户 端 ) 指 定 ， 远 程 引 擎 使 用 同样 的 路 径 也 应 该 能 找到 数据 集 。 为 了 方便 这 一 
点 ， 有 必要 在 实验 者 界面 的 Setup 标签 页 中 选中 Use relative paths 复 选 框 以 指定 相对 路 径 
名 称 。 

要 启动 远程 引擎 服务 器 ， 可 在 包含 remoteEngine.jar 文件 的 目录 下 输入 如 下 命令 : 

java -Xmx1024m -classpath ../db drivers/mysql-connector-java-5.1.6.jar; 

remoteEngine.jar;C:/Weka-3-7/weka.jar -Djava.security.policy=remote.policy 

weka .experiment .RemoteEngine 
其 中 ，-Xmx 参数 指定 最 大 堆 大 小 。 数 据 库 驱动 (这 里 是 mysql-connector-java-5.1.6.jar， 可 
根据 本 机 设置 自行 蔡 换 )、remoteEngine.jar 和 weka.jar 既 可 以 像 本 命令 一 样 用 -classpath( 或 
-cp) 参 数 指定 ， 也 可 以 用 CLASSPATH 环境 变量 指定 。 

如 果 一 切 正常 ， 窗 口 如 图 4.50 所 示 。 


4.50 启动 RemoteEngine 实验 服务 器 


这 表明 远程 引擎 在 端口 1099 上 启动 RMI 注册 表 并 成 功 运行 。 可 以 在 一 台 主 机 上 运行 
多 个 远程 引擎 ， 如 果 该 主机 配 有 多 个 处 理 器 或 多 核 处 理 器 ， 运 行 多 个 远程 引擎 能 充分 利用 
计算 资源 。 要 运行 多 个 远程 引擎 ， 可 像 前 面 那样 启动 每 个 远程 引擎 ， 但 只 能 有 一 个 远程 引 
擎 使 用 默认 的 1099 端口 ， 其 他 的 远程 引擎 必须 使 用 命令 行 选项 (-p) 指 定 一 个 不 同 的 端口 。 
对 于 其 他 主机 ， 重 复 该 过 程 。 例 如 ， 以 下 命令 指定 5050 端口 启动 远程 引擎: 

java -Xmx1024m -classpath ../db drivers/mysql-connector-java-5.1.6.jar; 

remoteEngine.jar;C:/Weka-3-7/weka.jar -Djava.security.policy=remote.policy 

weka .experiment .RemoteEngine -p 5050 

现在 输入 如 下 命令 启动 实验 者 界面 : 


java -Djava.rmi.server.codebase=< weka code URL > weka.gui .experiment .Experimenter 


这 里 的 weka_code_URL 指定 远程 引擎 能 够 找到 的 可 执行 代码 ， 这 里 指 weka.jar 文件 的 
全 路 径 ， 如 file:/WC:/Weka-3-7/wekajar， 读 者 在 使 用 时 须 蔡 换 为 计算 机 的 实际 路 径 。 如 果 
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表示 一 个 目录 ( 即 一 个 包含 Weka 目录 的 目录 )， 而 不 是 一 个 jar 文件 ， 则 必须 以 路 径 分 隔 符 
(如 “/”) 结 束 。 
3. 实验 者 界面 设置 


实验 者 界面 的 高 级 实验 模式 下 有 一 个 Distribute experiment 选项 组 ， 用 于 决定 是 否 将 实 
验 进行 分 布 。 该 选项 组 中 的 复 选 框 默认 为 取消 选中 ， 如 果 要 进行 远程 实验 ， 应 选中 该 复 选 
框 ， 这 将 使 选项 组 中 的 Hosts 按钮 可 用 ， 单 击 该 按钮 会 弹出 一 个 窗口 ， 询 问 远程 实验 的 主 
机 名 称 ， 主 机 名 称 必须 为 全 限定 名 (如 ml.cs.waikato.ac.nz) 或 卫 地址， 如 图 4.51 所 示 。 编 
辑 主机 名 称 很 简单 ， 只 要 在 窗口 上 部 的 文本 框 中 输入 主机 名 或 一 地 址 ， 如 果 使 用 默认 端 
口 ， 则 不 用 输入 端口 号 ， 否 则 必须 输入 端口 号 ， 然 后 按 Enter 键 将 其 添加 到 窗口 下 部 的 
列表 框 中 。 如 果 想 删除 主机 列表 中 的 某 个 主机 ， 可 选中 该 主机 ， 然 后 单 击 Delete selected 
按钮 。 

如 果 一 台 主 机 运行 多 于 一 个 的 远程 引擎 ， 需 要 多 次 在 文本 框 中 输入 主机 名 ， 如 果 不 是 
默认 端口 ， 还 必须 输入 端口 号 。 例 如 ， 图 4.52 显示 本 地 主机 localhost 运行 两 个 远程 引擎 ， 
一 个 运行 在 默认 的 1099 端口 ， 另 一 个 运行 在 5050 端口 。 
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图 4.51 编辑 主机 名 称 图 4.52 主机 名 加 端口 号 


需要 注意 的 是 ， 要 确保 设 定 的 端口 没有 被 主机 中 的 其 他 进程 占用 。 如 果 不 知道 具体 可 
以 使 用 哪些 端口 ， 可 参考 如 下 两 条 规则 。 规 则 一 ， 只 能 使 用 1024 以 后 的 端口 。0 一 1023 为 
熟知 端口 号 ， 由 IANA(Internet Assigned Numbers Authority， 互 联网 地 址 指派 机 构 ) 指 派 和 
控制 ， 而 1024 一 65535 端口 并 没有 公共 定义 ， 用 户 可 以 自己 定义 这 些 端 口 。 其 中 ，1024 一 
49151 为 注册 端口 号 ，IANA 不 指派 也 不 控制 ， 可 在 IANA 注册 ， 防 止 出 现 重复 ，49152 一 
65535 为 临时 端口 号 ， 不 用 指派 、 注 册 ， 可 由 任何 进程 来 使 用 ， 是 临时 端口 。 规 则 二 ， 在 
使 用 端口 前 ， 先 使 用 cmd 命令 打开 命令 行 窗口 ， 然 后 输入 命令 netstat -aon 并 按 Enter 键 ， 
查看 本 机 已 经 占用 的 端口 ， 挑 选 没有 被 占用 的 端口 号 。 

输入 主机 名 称 之 后 ， 可 使 用 前 文 讲述 的 方法 配置 其 余 的 实验 选项 。 有 一 种 更 为 简捷 的 
方法 是 ， 首 先 在 简单 模式 下 进行 配置 ， 然 后 再 切换 到 高 级 模式 ， 设 置 主机 名 称 等 其 他 选 
项 。 当 在 Run 标签 页 中 运行 远程 实验 时 ， 各 台 主 机 会 显示 子 实 验 的 进度 ， 以 及 可 能 的 错误 
消息 。 

分 布 实验 将 实验 拆 分 为 子 实 验 ， 通 过 RMI 发 送 给 各 个 主机 去 执行 。 默 认 情 况 下 ， 实 验 
按照 数据 集 进行 划分 ， 即 选中 By data set 单 选 按钮 。 在 这 种 情况 下 ， 主 机 数量 不 能 比 数据 
集 更 多 。 每 个 子 实验 自 成 体系 ， 将 所 有 的 学 习 方案 用 于 单个 数据 集 。 运 行 数量 很 少 的 数据 
集 可 以 按照 运行 来 划分 ， 即 选中 By run 单 选 按钮 。 例 如 ， 一 个 10 次 的 十 折 交 叉 验 证 就 会 
分 割 成 10 个 子 实验 ， 每 次 运行 一 个 子 实验 。 


4. 故障 诊断 


如 果 在 远程 实验 中 遇 到 一 些 问题 ， 使 得 实验 无 法 继续 ， 也 不 要 慌乱 ， 这 在 分 布 式 环境 
下 十 分 正常 ， 即 使 是 网 络 高 手 也 常常 会 遇 到 需要 解决 的 新 问题 。 

尽管 因 网 络 环境 复杂 而 导致 出 现 的 疑难 问题 多 变 ， 想 要 一 一 列 出 可 能 出 现 的 问题 是 不 
可 能 的 ， 但 还 是 有 一 些 常 见 问 题 需要 了 解 ， 使 用 者 在 实际 工作 中 可 举一反三 ， 排 除 故障 。 
常见 问题 列举 如 下 。 

(1) 如 果 启 动 实验 后 捕获 到 类 似 于 如 下 的 错误 : 

01:13:19: RemoteExperiment (//192.168.0.105/RemoteEngine) (sub)experiment 

(datataset iris.arff) failed : 

java.sql.SQLException: Table already exists: EXPERIMENT INDEX in statement 

[CREATE TABLE Experiment index ( Experiment type LONGVARCHAR, Experiment setup 

LONGVARCHAR, Result table INT )] 

01:13:19: dataset :iris.arff RemoteExperiment (//192.168.0.105/RemoteEngine) 

(sub)experiment (datatasetiris.arff) failed : java.sql.SsQLException: Table 

already exists: EXPERIMENT INDEX in statement [CREATE TABLE Experiment index 

( Experiment type LONGVARCHAR, Experiment setup LONGVARCHAR, Result table 

INT )]. Scheduling for execution on another host. 
请 不 要 惊慌 ， 这 只 是 因为 多 台 远 程 主机 试图 创建 相同 的 数据 库 表 ， 并 被 临时 锁定 。 这 个 问 
题 不 需要 解决 ， 它 会 自己 解决 ， 因 此 只 要 放手 让 你 的 实验 自己 运行 。 事 实 上 ， 这 表明 实验 
在 正常 工作 。 

(2) 如 果 先 将 实验 序列 化 至 文件 ， 然 后 再 修改 DatabaseUtils.props 文件 并 反 序 列 化 实 
验 ， 就 可 能 会 导致 一 个 错误 ， 例 如 ， 缺 少 类 型 映射 的 错误 。 这 是 因为 ， 实 验 将 使 用 序列 化 
实验 那个 时 刻 的 DatabaseUtils.props 文件 ， 而 不 是 修改 后 的 文件 。 要 记 住 ， 序 列 化 过 程 也 
序列 化 DatabaseUtils 类 ， 从 而 也 就 保存 了 配置 文件 。 因 此 ， 如 果 修 改 了 DatabaseUtils.props 
文件 ， 此 前 序列 化 的 实验 可 能 就 不 能 使 用 了 。 此 外 ，Java 也 可 将 实验 序列 化 为 XML 格 
式 ， 而 不 是 二 进 制 格 式 ， 这 是 产生 同样 错误 的 另 一 个 原因 。 

(3) 使 用 损坏 的 或 不 完整 的 DatabaseUtils.props 文件 可 能 会 导致 特定 的 接口 错误 ， 例 
如 ， 禁 止 使 用 User 按钮 旁边 的 Database URL。 如 果 发 现 此 类 莫名 其 妙 的 错误 ， 建 议 复制 
一 个 干净 的 DatabaseUtils.props 文件 。 

(4) 如 果 远 程 引 擎 在 调用 java.util.Hashtable.getO 时 捕获 NullPointerException 异常 ， 不 
要 惊慌 ， 这 不 会 影响 实验 的 结果 。 


4.3.2 手把手 教 你 用 


1. 数据 库 准 备 

本 示例 展示 如 何 使 用 MySQL 数据 库 管理 系统 构建 远程 实验 数据 库 。 本 示例 使 用 
MySQL 社区 版 5.6.12， 数 据 库 客户 端 使 用 Navicat 10.1.7 For MySQL 。 

首先 ， 创 建 一 个 名 称 为 weka 的 数据 库 ， 字 符 集 使 用 UTF-8 字符 集 ， 如 图 4.53 所 示 。 

然后 ， 以 root 用 户 登录 并 创建 一 个 名 称 为 weka 的 数据 库 用 户 ， 如 图 4.54 所 示 。 
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图 4.53 创建 数据 库 图 4.54 创建 数据 库 用 户 


王 注意 :， 这 里 的 主机 不 要 填 localhost， 而 要 填 百 分 号 (96)， 这 样 ，weka 用 户 才能 从 其 
他 主机 登录 数据 库 ， 否 则 ，weka 用 户 只 能 从 本 机 登录 ， 无 法 做 分 布 实验 。 


赋予 该 用 户 对 整个 weka 数据 库 的 权限 ， 如 图 4.55 所 示 。 
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4.55 ”赋予 用 户 权限 


和 注意 :， 这 只 是 实验 用 ， 因 此 赋予 全 部 权限 只 是 为 了 简单 ， 如 果 正 式 使 用 ， 只 赋予 足 
够 权限 即 可 。 


做 完 这 些 工 作 ， 数 据 库 已 经 准备 好 了 ， 下 面 该 准备 文件 目录 、jar 文件 和 配置 文件 了 。 

2. 运行 实验 前 的 准备 

本 示例 准备 文件 目录 ， 并 放置 jar 文件 、 数 据 集 文 件 和 配置 文件 ， 修 改 配置 文件 并 编 
辑 批 处 理 文件 。 


首先 ， 使 用 Windows 资源 管理 器 在 C 盘 的 根 目录 et 
下 建立 如 图 4.56 所 示 的 目录 结构 。 其 中 ，datasets 子 目 bowen 
录用 于 存放 数据 集 文件 ，db_drivers 子 目录 用 于 存放 数 -人 


据 库 驱动 ，remote_engine 子 目 录用 于 存放 远程 引擎 可 
执行 jar 文件、 配置 文件 和 批 处 理 文件 。 

然后 ， 将 类 别 属性 为 离散 型 的 数据 集 文 件 复制 一 份 到 datasets 子 目录 中 ， 一 共有 17 个 
文件 ， 如 图 4.57 所 示 。 由 于 本 示例 准备 对 分 类 算法 进行 分 布 实验 ， 因 此 不 使 用 类 别 属性 为 
连续 型 的 数据 集 。 

下 一 步 ， 将 数据 库 驱 动 程序 复制 到 db_drivers 子 目 录 中 ， 本 书 使 用 MySQL 数据 库 ， 
因此 复制 mysql-connector-java-5.1.6.jar 驱动 文件 。 如 果 使 用 其 他 数据 库 ， 请 按照 实际 情况 
复制 相应 的 驱动 。 


图 4.56 文件 目录 结构 


» Windcwsa_OS (C) » experiment » datasets ~ 6 dtc 


Oeontact encecarf Oeredi garfl 
obssarf 名 mypotyroidarf 


Oiris2Darf irisarf 
©@ segment-challenge.arff Osegmenttestarff 
Ovotearff 
Oweathernominalarit 


4.57 ”实验 用 数据 集 


接 下 来 ， 将 第 1 章 所 述 的 DatabaseUtils.props 文件 复制 到 remote_engine 子 目 录 中 ， 按 
照 自己 数据 库 的 实际 设置 相应 修改 配置 文件 。 

在 Weka 安装 目录 下 ， 找 到 remoteExperimentServer.jar 文件 并 使 用 WinRAR 压缩 工具 打 
开 ， 如 图 4.58 所 示 。 将 压缩 文件 中 的 remoteEnginejar、remote policy 和 remote.policy.example 
三 个 文件 解压 缩 到 remote_engine 子 目录 中 。 
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图 4.58 远程 实验 服务 器 文件 
使 用 任意 的 文本 编辑 器 打开 remote.policy 文件 ， 将 配置 文件 按 程序 清单 4.1 所 示 的 内 
容 进行 修改 。 可 以 看 到 ， 仅 修改 了 两 行 代码 : 第 一 ， 将 数据 集 文件 所 在 目录 授权 为 可 读 ; 
第 二 ， 将 remoteEngine.jar 文件 所 在 目录 (本 文 为 Ci\experimentremote_engine\) 授 权 为 可 
读 。 注 意 到 这 里 都 使 用 相对 路 径 ， 读 者 可 按照 自己 的 实际 配置 做 相应 修改 。 


程序 清单 4.1 remote.policy 文件 


// file permission for data sets 
permission java.io.FilePermission 
"../datasets/-", "read"; 


// file permission to load server classes from remotegngine.jar. 
// only needed if RemoteEngine Skel.class/ Stub.class are going to 
// be downloaded by clients (ie, if these files are not already in the 
// client's classpath). Normally this doesn't need to be changed. 
permission java.io.FilePermission 

"../remote engine/-", "read"; 
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在 remote engine 子 目录 中 ， 新 建 一 个 startRemoteEngine.bat 批 处 理 文件 ， 运 行 该 批 处 


理 文件 就 启动 远程 引擎 。 文 件 内 容 如 程序 清单 42 所 示 。 


程序 清单 4.2 startRemoteEngine bat 文件 


Qecho off 
java -Xmzx1024m -classpath ../db drivers/mysql-connector-java-5.1.6.jar; 


remoteEngine.jar; C:/Weka-3-7/weka.jar -Djava.security.policy=remote.policy 
weka .experiment .RemoteEngine 


同样 ， 在 remote_engine 子 目 录 中 ， 新 建 一 个 startExperimenter.bat 批 处 理 文件 ， 运 行 


该 批 处 理 文件 就 启动 实验 者 界面 进行 分 布 处 理 。 文 件 内 容 如 程序 清单 4.3 所 示 。 


程序 清单 4.3 startExperimenterbat 文件 


Q@java -cp ../db drivers/mysql-connector-java- 
5.1.6.jar;remotegngine.jar;C:/Weka-3-7/weka.jar — 
Djava.rmi .server.codebase=file:///C:/Weka-3-7/weka.jar 
weka .gui .experiment .Experimenter 


3. 分 布 实验 
本 示例 完成 分 布 实验 ， 分 布 实验 的 网 络 拓扑 效果 如 图 4.59 所 示 。 两 台 主机 通过 无 线路 


由 器 相连 接 ， 第 一 台 主机 作为 数据 库 服务 器 ， 安 装 了 MySQL 和 Weka， 其 人 P 地 址 为 
192.168.0.100; 第 二 台 主 机 上 安装 了 Weka， 其 IP 地 址 为 192.168.0.102。 两 台 主 机 上 都 复 
制 了 一 份 如 图 4.56 所 示 的 目录 及 文件 。 


图 4.59 分布 实验 网 络 拓扑 
如 果 不 知道 主机 的 卫 地 址 ， 可 以 运行 ipconfig 命令 ， 查 看 本 机 的 人 P 地 址 ， 还 要 尝试 


一 下 ping 命令 ， 确 保 两 台 主机 不 会 因为 防火 墙 等 原因 导致 无 法 通信 。 


实验 前 ， 在 第 一 台 主 机 上 启动 MySQL 数据 库 ， 并 在 第 二 台 主 机 上 测试 数据 库 连 接 ， 


以 保证 能 连通 第 一 台 主机 的 数据 库 。 


下 面 正式 开始 实验 。 首先 ， 分 别 在 两 台 主机 中 ， 使 用 Windows 资源 管理 器 导航 至 


experiment\remote_ engine 目录 ， 双 击 startRemoteEngine.bat 文件 启动 远程 引擎 。 两 台 主机 
的 启动 窗口 如 图 4.60 所 示 。 


图 4.60 启动 两 台 主机 的 远程 引擎 


在 第 二 台 主 机 中 ， 双 击 startExperimenter.bat 文件 启动 实验 者 界面 。 为 了 简化 设置 ， 开 
始 时 保持 默认 的 简单 实验 模式 。 在 Results Destination 选项 组 的 下 拉 列 表 框 中 选择 JDBC 
database 选项 ， 单 击 User 按钮 ， 输 入 数据 库 URL、 数 据 库 用 户 和 密码 。 然 后 选中 Datasets 
选项 组 中 的 Use relative Paths 复 选 框 ， 单 击 Add new 按钮 选中 datasets 子 目 录 里 的 数据 
集 。 最 后 ， 在 Algorithms 选项 组 中 单 击 Add new 按钮 选择 ZeroR、OneR 和 J48 分 类 算 
法 。 最 终 的 设置 如 图 4.61 所 示 。 


图 4.61 简单 实验 模式 

下 一 步 ， 在 Experiment Configuration Mode 下 拉 列 表 框 中 选择 Advanced 选项 ， 切 换 至 
高 级 实验 模式 ， 如 图 4.62 所 示 。 可 以 看 到 ， 简 单 实验 模式 下 的 设置 在 高 级 实验 模式 中 全 都 
保持 不 变 。 


图 4.62 高 级 实验 模式 
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接 下 来 设置 主机 名 称 。 选 中 Distribute experiment 选项 组 
中 的 复 选 框 ， 激 活 Hosts 按钮 。 单 击 Hosts 按钮 ， 设 置 进行 
分 布 式 计 算 的 主机 ， 如 图 4.63 所 示 。 注 意 到 第 一 台 主 机 设置 
的 是 人 P 地 址 ， 这 是 为 了 避免 在 局 域 网 环境 下 指定 主机 名 -JP 
地 址 映射 的 麻烦 。 
现在 已 经 完成 实验 设置 ， 切 换 至 Run 标签 页 ， 单 击 
Start 按钮 启动 实验 。 在 Run 标签 页 下 的 Log 区 域 中 会 显示 
分 配子 实验 的 进展 ， 同 时 在 两 台 主 机 的 远程 引擎 中 会 显示 实 
验 进程 的 详细 信息 ， 如 图 4.64 所 示 。 
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图 4.64 ”实验 运行 界面 
下 一 步 ， 分 析 实 验 结果 。 由 于 下 一 节 将 详细 讲述 这 一 内 容 ， 因 此 这 里 就 简略 列举 一 下 
结果 。 切 换 至 Analyse 标签 页 ， 单 击 Database 按钮 并 输入 数据 库 URL、 用 户 名 和 密码 ， 稍 
等 片刻 后 ， 实 验 者 界面 中 导入 4800 条 实验 结果 ， 如 图 4.65 所 示 。 
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4.65 ”导入 实验 结果 
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最 后 ， 单 击 Perform test 按钮 ，Test output 选项 组 中 便 显 示 出 测试 结果 ， 如 图 4.66 
所 示 。 


4.66 测试 结果 


4. 多 核实 验 

如 果 想 充分 利用 多 核 计算 机 的 性 能 ，Weka 3.5.7 版 本 以 后 都 支持 多 核 ， 所 要 做 的 事 就 
是 在 启动 RemoteEngine 时 ， 带 -p 选项 指定 监听 端口 ， 然 后 在 实验 者 界面 中 指定 主机 名 和 
端口 号 ， 格 式 为 “主机 名 :端口 号 ”。 

还 要 注意 的 是 ， 在 每 次 重新 运行 实验 前 ， 最 好 先 删 除数 据 库 里 的 实验 表 ， 以 免 对 实验 
结果 造成 影响 。 

下 面 使 用 一 台 主机 进行 多 核实 验 。 该 主机 的 CPU 是 Intel Core i5-3337U， 这 是 双核 四 
线程 的 多 核 CPU 。 首 先 ， 将 startRemoteEngine.bat 批 处 理 文 件 复制 一 份 ， 命 名 为 
startRemoteEnginel.bat。 使 用 任意 文本 编辑 器 打开 startRemoteEnginel.bat 文件 ， 按 照 程序 
清单 4.4 所 示 编 辑 文件 内 容 ， 可 以 看 到 ， 只 是 在 第 二 行 的 末尾 添加 “-p 5050” 选 项 ， 其 余 
不 变 。 

程序 清单 4.4 startRemoteEnginel .bat 


@echo off 
java -Xmx256m -classpath ../db drivers/mysql-connector-java— 
5.1.6.jar; remotegngine.jar; C:/Weka-3-7/weka.jar — 
Djava.security.policy=remote.policy weka.experiment .RemoteEngine -p 5050 
编辑 完成 后 保存 批 处 理 文件 ， 然 后 双击 运行 ， 弹 出 如 图 4.67 所 示 的 窗 
接 下 来 ， 在 实验 者 界面 的 Setup 标签 页 中 ， 单 击 Hosts 按钮 ， 按照 图 4 4.68 所 示 进 行 
设置 。 
镁 注意 : 不 使 用 默认 端口 的 主机 ， 必 须 指 定 端口 号 ， 如 “localhost5050”。 


按照 上 一 个 实验 的 方式 启动 实验 ， 观 察 本 机 的 远程 引擎 窗口 里 显示 的 信息 ， 实 验 运行 
完毕 后 ， 实 验 者 界面 如 图 4.69 所 示 。 
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图 4.67 运行 端口 为 5050 的 远程 引擎 


图 4.69 ”运行 实验 
下 面 按照 上 述 方法 ， 在 第 二 台 主 机 上 设置 不 同 数量 的 线程 ， 比 较 多 核 使 用 多 线程 对 性 


能 的 影响 。 由 于 只 是 双核 四 线程 的 酷 害 CPU， 因 此 最 多 使 用 四 个 线程 ， 将 不 使 用 分 布 实 
验 作为 对 照 ， 和 前 面 实验 一 样 使 用 17 个 数据 集 和 3 个 分 类 算法 ， 实 验 结果 如 表 4.1 所 示 。 
可 见 ， 使 用 多 线程 能 大 大 提高 运行 效率 ， 且 在 一 定 的 线程 数 以 内 ， 随 着 线程 数 的 增加 ， 运 
行 的 时 间 越 来 越 短 。 时 间 开 销 可 能 因 计 算 机 配置 的 不 同 而 不 同 ， 但 应 该 与 上 述 结论 相符 。 


表 4.1 多 核实 验 开销 


不 使 用 分 布 实验 两 个 线程 四 个 线 各 
4 分 11 秒 1 分 和 2 和 


注意 : ”重新 做 分 布 实 验 时 ， 请 不 要 删除 experiment index 和 results0 表 ， 因 为 笔者 发 
现 这 会 引发 运行 时 刻 错误 ， 估 计 是 软件 BUG。 解 决 办 法 是 ， 不 要 更 改 
experiment index 表 ， 仅 仅 将 results0 表 的 内 容 清空 。 经 过 多 次 实验 ， 可 以 证 
明 这 种 方式 有 效 。 
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4.4 分 析 结 果 


完成 实验 设置 后 运行 实验 ， 之 后 就 需要 分 析 实 验 结果 。 单 击 Analyse 标签 切换 至 
Analyse 标签 页 ， 即 可 在 Analyse 标签 页 中 完成 实验 结果 的 分 析 工 作 。 


4.4.1 获取 实验 结果 


刚 切 换 到 Analyse 标签 页 时 ， 由 于 实验 者 界面 不 知道 从 何 处 获取 实验 结果 ， 因 此 大 部 
分 功能 都 不 可 用 。 实 验 者 界面 中 提供 三 种 方式 获取 实验 结果 ， 分 别 对 应 于 Analyse 标签 页 
上 部 Source 选项 组 中 的 三 个 按钮 。 第 一 种 方式 是 从 文件 获取 ， 单 击 File 按钮 可 以 打开 在 
Setup 标签 页 中 由 Results Destination 选项 组 设置 的 实验 结果 保存 文件 ， 第 二 种 方式 是 从 数 
据 库 获取 ， 单 击 Database 按钮 可 以 打开 一 个 数据 库 连 接 参数 的 设置 对 话 框 ， 输 入 数据 库 
URL、 用 户 名 和 密码 连接 数据 库 ， 从 数据 库 中 获取 实验 结果 ; 第 三 种 方式 是 直接 从 当前 实 
验 结果 中 获取 ， 单 击 Experiment 按钮 就 可 以 从 刚才 运行 的 实验 中 获取 实验 结果 。 

如 图 4.70 所 示 即 为 从 4.2.3 节 的 “简单 实验 初步 ”示例 中 得 到 的 Analyse 标签 页 。 
Source 选项 组 中 显示 了 可 用 的 结果 行 的 数量 。 由 于 本 次 实验 使 用 3 个 方案 、1 个 数据 集 、 
运行 10 次 十 折 交 叉 验证 ， 因 此 共有 300 个 结果 行 ， 显 示 “Got 300 results”。 另 外 ，Source 
选项 组 下 方 是 Actions( 动 作 ) 选 项 组 ，Analyse 标签 页 的 左 部 是 Configure test( 配 置 测试 ) 选 项 
组 ， 左 下 部 是 Result list( 结 果 列 表 ) 选 项 组 ， 右 部 是 Test output( 测 试 输出 ) 选 项 组 。 
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图 4.70 Analyse 标签 页 


4.4.2 动作 


Actions 选项 组 中 只 包含 三 个 按钮 : Perform test( 执 行 测试 )、Save output( 保 存 输出 ) 和 
Open Explorer( 打 开 探 索 者 )。 这 三 个 按钮 要 与 其 他 选项 组 的 设置 一 同 使 用 。 

完成 配置 测试 (Configure test) 之 后 ， 单 击 Perform test 按钮 执行 测试 。Save output 按钮 
的 使 用 参见 4.4.4 节 。Open Explorer 按钮 用 于 打开 探索 者 界面 ， 借 用 探索 者 界面 的 功能 来 
分 析 实 验 结果 文件 ， 这 是 Weka 新 版 本 新 增 的 功能 。 
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4.4.3 ”配置 测试 


Configure test 选项 组 中 包含 的 配置 项 最 多 ， 最 为 复杂 。 

Testing with( 测 试 方法 ) 选 项 用 于 选择 使 用 Paired T-Tester(corrected)( 配 对 校正 工 检验 ) 还 
是 Paired T-Tester( 标 准 工 检验 ) 来 计算 显著 性 (significance)。 配 对 校正 T 检验 是 默认 的 检验 
方法 ， 这 是 因为 标准 T 检验 可 能 产生 过 多 的 显著 性 差异 。 有 关 工 检验 的 更 多 信息 ， 请 参考 
统计 学 入 门 教材 。 当 显著 性 水 平 降低 时 ， 结 论 会 增加 置信 度 。 

Select rows and cols( 选 择 行 和 列 ) 选 项 用 于 选择 比较 矩阵 的 行 和 列 ， 有 Rows( 行 )、 
Cols( 列 ) 和 Swap( 互 换 ) 三 个 按钮 。 行 字段 和 列 字 段 决定 比较 矩阵 的 维 ， 单 击 Rows 按钮 和 
Cols 按钮 会 弹出 如 图 4.71 所 示 的 Select items 对 话 框 。 图 中 是 默认 的 选择 ， 可 选项 就 是 实 
验 进行 测量 的 特征 ， 也 就 是 前 文 图 4.24 所 示 的 电子 表格 的 列 标签 。 


选择 行 选择 列 


4.71 选择 行 和 列 


用 户 可 以 选择 将 哪些 特征 用 作 和 矩阵 的 行 和 列 ， 图 4.71 所 示 的 是 默认 用 作 行 和 列 的 特 
征 。 行 选择 了 Dataset， 这 里 只 有 一 个 iris 数据 集 ， 因 此 只 显示 一 行 ， 列 选中 了 Scheme、 
Scheme _options 和 Scheme version ID， 选 择 多 个 特征 的 方法 是 在 按 住 Shift 键 的 同时 单 
击 。 选 择 完成 后 ， 单 击 Perform test 按钮 可 以 看 到 结果 。 图 4.72 就 是 默认 行列 选择 的 结 
果 ， 由 于 比较 矩阵 中 的 列 标题 显示 不 全 ， 可 以 参考 Key 部 分 以 查看 完整 的 信息 。 


Darasec (1) crees.g4 | (2) rules (3) rules 


(ww /1 (0/0) (0/0/1) 


Key: 

(1) trees.J48 '-C 0.25 -M 2' -217733168393644444 
(2) rules.OneR '-B 6' -3459427003147861443 

(3) rules.ZeroR '' 48055541465867954 


4.72 ”比较 矩阵 


选择 好 行 和 列 之 后 ， 如 果 单 击 Swap 按钮 互 换行 和 列 ， 并 再 次 单 击 Perform test 按钮 ， 
和 矩阵 将 转 置 ， 结 果 如 图 4.73 所 示 。 现 在 矩阵 有 三 行 和 一 列 ， 每 一 行 对 应 一 个 算法 ， 一 列 对 
应 单个 数据 集 。 

相反 ， 如 果 不 互 换行 和 列 ， 只 是 单 击 Rows 按钮 ， 将 行 选择 的 Dataset 更 换 为 Ran， 然 
后 再 次 进行 测试 ， 其 结果 如 图 4.74 所 示 。 这 里 的 Run 是 指 交 叉 验 证 的 运行 ， 本 例 为 10 次 
运行 ， 因 此 有 10 行 。 每 个 行 标签 后 括号 内 的 数字 (图 4.73 中 为 100， 图 4.74 中 为 10) 对 应 
于 该 行 参与 平均 的 结果 数目 。 


Dataset (1) iris 


trees.J48 '-C 0.25 -M2' (100) 94.73 | 
rules.OneR '-B 6' -345942(100) 92.53 | 
rules.ZeroR '' 4805554146(100) 33.33 | 


Key: 
(1) iris 


4.73 ” 互 换行 列 后 的 输出 


Darasec (1) trees.J4 | (2) rules (3) rules 
BR (10) 96.00 | 92.00 33.33 
2 (10) 94.00 | 93.33 33.33 
3 (10) 94.00 | 92.00 33.33 
4 (10) 95.33 | 92.67 33.33 
5 (10) 95.33 | 92.00 33.33 
6 (10) 95.33 | 93.33 33.33 
7 (10) 94.00 | 92.00 33.33 
日 (10) 94.00 | 92.67 33.33 
9 (10) 94.00 | 93.33 33.33 
10 (10) 95.33 | 92.00 33.33 

(w/e) 1 (0/10/0) (0/0/10) 


Key: 
(1) trees.J48 '-C 0.25 -M 2' -217733168393644444 
(2) rules.OneR '-B 6' -3459427003147861443 

(3) rules.ZeroR '' 48055541465867954 


图 4.74” 行 选择 为 Run 的 运行 结果 


Comparison field( 比 较 字 段 ) 下 拉 列 表 框 用 于 指定 比较 的 指标 ， 如 Percent_correct 指定 正 
确 率 百 分 比 ，Number _ correct 指定 正确 的 实例 数 等 。 

Significance( 显 著 性 ) 文 本 框 用 于 指定 统计 学 显著 性 水 平 ， 默 认 值 为 0.05。 

Sorting (asc.) by( 按 升序 排序 ) 下 拉 列 表 框 用 于 选择 按照 何 种 指标 对 结果 行进 行 排序 ， 默 
认为 使 用 自然 排序 ， 按 照 用 户 在 Setup 标签 页 中 输入 数据 集 名 称 行 的 顺序 进行 显示 。 另 
外 ， 结 果 行 还 可 以 根据 比较 字段 指定 的 度量 进行 排序 。 

如 果 在 实验 中 有 多 个 学 习 方 案 ， 就 应 当选 定 一 个 基线 学 
习 方 案 作 为 比较 的 对 象 ， 其 他 方案 都 与 基线 学 习 方 案 进 行 比 
较 ， 默 认 的 基线 学 习 方案 为 第 一 个 方案 。 单 击 Test base( 测 
试 基线 ) 选 项 后 面 的 Select 按钮 ， 可 以 在 弹出 的 对 话 框 中 重 
新 选择 期 望 的 基线 学 习 方 案 ， 如 图 4.75 所 示 。 这 里 选择 
OneR 作为 基线 方案 ， 致 使 其 他 方案 都 与 OneR 方案 进行 单 ve | beren | | core | 
独 的 比较 。 除 了 学 习 方 案外 ， 还 有 其 他 两 个 选项 : , 
Summary( 总 结 ) 和 Ranking( 排 名 )。 前 者 将 每 一 个 学 习 方案 与 。 “这 拉 芝 二 学 习 方 案 
其 他 所 有 方案 进行 比较 ， 并 打印 出 比较 和 矩阵， 其 中 包含 一 些 数据 集 ， 以 及 哪 一 个 方案 显著 
优 于 其 他 方案 的 单元 格 。 后 者 对 方案 进行 排名 ， 根 据 对 一 系列 数据 集 进行 测试 的 结果 ， 用 
优 于 (>) 和 不 如 (<) 来 表示 方案 比较 的 结果 ， 打 印 学 习 方 案 的 名 次 表 。 输 出 的 第 一 列 给 出 优 
于 的 数量 减 去 不 如 的 数量 ， 体 现 了 学 习 方案 的 综合 性 能 。 

如 果 将 OneR 作为 基线 方案 ， 且 比较 字段 为 Percent correct， 进 行 测试 的 结果 如 图 4.76 
所 示 。 运 行 结 果 中 (w /*) 所 在 列 为 OneR， 表 明 OneR 为 基线 方案 。 结 果 显 示 ， 在 OneR 和 
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数据 控 气 与 机 器 学 习 
J48 的 结果 中 不 存在 统计 学 显著 性 差异 ， 然 而 ， 在 OneR 和 ZeroR 之 间 存在 统计 学 显著 性 
差异 。 


Dataset, (2) rules.on | (1) trees (3) rules 
iris (100) 92.53 | 94.73 33.33 

(w / 1 (0/1/0) (0/0/1) 
Key: 


(1) trees.J48 '-C 0.25 -M 2' -217733168393644444 
(2) rules.OneR '-B 6' -3459427003147861443 
(3) rules.ZeroR '' 48055541465867954 


图 4.76 测试 结果 


单 击 Displayed Columns( 显 示 列 ) 选 项 后 面 的 Select 按钮 ， 可 以 在 弹出 的 对 话 框 中 选择 
测试 输出 中 比较 矩阵 要 显示 的 列 ， 如 图 4.77 所 示 。 默 认 显示 全 部 学 习 方 案 ， 但 用 户 也 可 以 
选择 只 输出 部 分 方案 列 。 

选中 Show std. deviations( 显 示 标准 偏差 ) 复 选 框 时 ， 可 以 产生 待 评估 属性 的 标准 偏差 。 

单 击 Output Format( 输 出 格式 ) 选 项 后 面 的 Select 按钮 ， 会 弹出 一 个 如 图 4.78 所 示 的 对 
话 框 ， 让 用 户 设置 Mean Precision( 均 值 精度 ) 和 StdDev. Precision( 标 准 偏差 精度 )， 上 述 两 种 
精度 的 默认 值 都 为 >。 用 户 还 可 以 设置 Output Format( 输 出 的 格式 )， 支 持 的 格式 有 CSV、 
GNUPlot、HTML、LaTeX、Plain Text( 默 认 ) 以 及 Significance only。 选 中 Show Average( 显 
示 平 均 ) 复 选 框 后 ， 会 在 输出 列表 中 追加 一 行 ， 列 出 每 列 的 平均 值 。 选 中 Remove filter 
classnames( 删 除 过 滤器 类 名 ) 复 选 框 ， 可 以 从 正在 处 理 的 数据 集中 删除 过 滤器 的 名 称 和 选 
项 ， 要 知道 ，Weka 有 的 过 滤器 名 称 可 能 非常 长 。 


7 


Bonore Filter clasenemss 口 ] 


Maneed setap resetrisrlsintest 有 


[gr | | gence 


4.77 选择 显示 列 


在 Output Format 下 拉 列 表 框 中 选择 一 项 后 ， 
Advanced setup( 高 级 设置 ) 选 项 后 的 文本 框 中 的 文 
字 会 相应 变化 。Advanced setup 选项 可 以 让 用 户 得 
到 更 多 的 控制 ， 单 击 Choose 按钮 可 以 在 六 种 结果 
和 矩阵 中 进行 选择 ， 如 图 4.79 所 示 。 选 择 完成 后 ， 
单 击 Choose 按钮 后 的 文本 框 ， 会 弹出 一 个 编辑 结 
果 和 矩阵 选项 的 通用 对 象 编辑 器 ， 用 于 对 选中 的 结 
果 和 矩阵 进行 选项 设置 。 这 些 选 项 都 是 一 些 输出 的 
格式 ， 诸 如 行列 名 称 宽度 (rowNameWidth 和 


4.79 选择 结果 和 矩阵 


colNameWidth) ， 以 及 是 否 列 举 列 和 行 的 名 称 (enumerateColNames 和 
enumerateRowNames， 即 在 列 名 称 或 行 名 称 前 添加 索引 前 级 “(x)”， 其 中 ，x 为 索引 值 )， 
等 等 。 

最 后 ， 单 击 Perform test 按钮 启动 测试 。 完 成 测试 后 ， 会 在 Test output 选项 组 中 输出 
测试 结果 ， 并 在 Result list 选项 组 中 添加 一 个 条 目 。 


4.4.4 保存 结果 


在 Test output( 测 试 输出 ) 选 项 组 中 显示 的 信息 由 Result list( 结 果 列 表 ) 选 项 组 中 当前 的 选 
择 项 所 控制 。 在 Result List 选项 组 中 单 击 不 同 条 目 ，Test output 选项 组 中 会 显示 对 应 于 该 
条 目的 实验 结果 ， 如 图 4.80 所 示 。 


Result list 


et — rules. ZeroR “ 49055541465861| 
12:22:49 - Percent_correct - rules. ZeroR ”48055541465861 


< | 


4.80 结果 列表 


单 击 Save output 按钮 ， 可 以 将 在 Test output 选项 组 中 显示 的 结果 保存 到 文件 中 。 如 果 
指定 的 文件 已 经 存在 ，Weka 会 弹出 如 图 4.81 所 示 的 对 话 框 ， 询 问 用 户 如 何 处 理 冲 突 ， 并 
提供 四 种 处 理 方式 。 其 中 ， 单 击 Append( 追 加 ) 按 钮 ， 不 改变 原来 的 文件 信息 ， 只 是 在 原来 
文件 的 末尾 添加 新 的 一 组 结果 ; 单 击 Overwrite( 改 写 ) 按 钮 ， 删 除 原来 的 文件 信息 ， 改 写 为 
新 的 一 组 结果 ; 单 击 Choose new name( 选 择 新 名 称 ) 按 钮 ， 不 改变 原来 的 文件 ， 让 用 户 另 选 
一 个 文件 ， 单 击 Cancel( 取 消 ) 按 钮 ， 取 消 保存 操作 。 不 管 怎样 ， 在 同一 段 时 间 只 可 以 保存 
一 组 结果 ， 通 过 单 击 Append 按钮 而 不 是 Overwrite 按钮 ， 用 户 可 以 将 所 有 的 结果 保存 到 同 
一 个 文件 中 。 


4.81 File query 对 话 框 


4.4.5 ”手把手 教 你 用 
1. 分 析 初步 


本 示例 分 析 4.2.3 节 中 “简单 实验 初步 ”实验 的 结果 。 

首先 ， 完 成 “简单 实验 初步 ”实验 ， 然 后 切换 至 Analyse 标签 页 ， 单 击 Experiment 按钮 
获取 当前 实验 结果 ，Source 选项 组 中 显示 “Got 300 results”( 获 取 300 条 结果 )， 如 图 4.82 
所 示 。 可 以 看 到 ， 结 果 列 表 中 添加 了 一 个 条 目 ， 并 且 在 测试 输出 区 域 显 示 了 三 条 可 用 的 结 
果 集 ， 这 是 在 Setup 标签 页 中 选择 的 三 个 不 同学 习 方案 对 iris 数据 集 的 训练 结果 ， 显 示 格 
式 为 方案 名 称 、 方 案 选项 和 方案 版 本 号 。 


隔 尖 就 岂 将” 才 ? 洪 全 IE 


@« 


@« 


数据 挖掘 写 机 器 学 习 


— WS 


图 4.82 ”获取 实验 结果 
现在 ， 不 改变 任何 默认 测试 配置 ， 直 接 单 击 Perform test 按钮 。 结 果 列 表 中 会 添加 一 个 
条 目 ， 并 且 在 测试 输出 区 域 显 示 如 图 4.83 所 示 的 结果 。 可 见 ， 测 试 输出 分 为 三 个 部 分 : 第 
一 部 分 是 测试 选项 概要 ;第 二 部 分 是 比较 矩阵 ， 第 三 部 分 是 学 习 方 案 列表 。 


Test output 


Tester: weka.experiment. PairedCorrectedITester -G 4,5,6 -D 1 -R 2 -5 人 
alysing: Fercent_correct 


cs 


lence: 0.05 (two tailed) 


15-11-27 下 午 1:58 


Daraser {1) rules.Ze | (2) rules (3) trees 
iris (100) 33.33 | 92.53v 94.73v 

(w/o0/0) (1070) 
Key: 


(1) rules.ZeroR '' 48055541465867954 
(2) rules.OneR '-B 6' -3459427003147861443 
(3) trees.J48 '-C 0.25 -M 2' -217733168393644444 


< 


图 4.83 ”测试 输出 

下 面 分 述 这 三 个 部 分 。 

第 一 部 分 列 出 了 测试 选项 概要 。Tester 条 目 显示 使 用 哪 一 个 T 检验 方案 ， 通 过 Testing 
with 选项 设置 ，Analysing 条 目 显示 使 用 哪 一 个 比较 字段 ， 通 过 Comparison field 选项 设 
置 ， Datasets 条 目 显示 所 使 用 的 数据 集 个 数 ， 可 在 Setup 标签 页 的 Datasets 选项 组 中 设置 ; 
Resultsets 条 目 显 示 使 用 的 学 习 方案 数目 ，Confidence 条 目 显示 统计 显著 性 水 平 ， 通 过 
Significance 选项 设置 ，Sorted by 条 目 显示 排序 指标 (默认 为 自然 排序 )， 通 过 Sorting (asc.) 
by 选项 设置 ，Date 条 目 显 示 测 试 日 期 及 时 间 。 

第 二 部 分 列 出 了 比较 和 矩阵。 矩阵 中 ， 表 头 列 出 了 当前 比较 的 行 和 列 ， 行 为 Dataset， 列 
为 三 个 学 习 方 案 。 每 一 个 数据 集 作为 一 行 ， 显 示 正 确 率 百 分 比 。 由 于 本 例 只 选择 了 一 个 数 
据 集 ， 因 此 只 有 一 行 。 在 这 一 行 中 ，ZeroR 的 正确 率 为 33.33%，OneR 的 正确 率 为 
92.53%，J48 的 正确 率 为 94.73%。 标 记 v 和 * 表示 特定 结果 的 统计 显著 性 水 平 比 基 线 方案 


(当前 是 ZeroR) 在 指定 显著 性 水 平 (目前 为 0.05) 上 是 更 好 (v) 还 是 更 坏 (*)。OneR 和 J48 的 统 
计 结 果 优 于 ZeroR 建立 的 基线 。 在 每 一 列 的 底部 显示 (x/y/z) 的 形式 ， 表 明 与 实验 中 使 用 的 
数据 集 的 基线 方案 相 比 ， 所 在 列 的 方案 优 于 (x)、 相 同 (y) 或 不 如 (z) 的 次 数 。 本 例 中 只 有 一 
个 数据 集 ，OneR 优 于 ZeroR 一 次 ， 且 与 ZeroR 比较 ， 相 同 或 不 如 的 次 数 为 0， 因 此 使 用 
(1/0/0) 表 示 ; 同样 ，J48 也 比 ZeroR 更 好 ， 也 使 用 (1/0/0) 表 示 。 第 一 列 显示 (w /*)， 是 为 了 
提醒 用 户 (x/y/z) 的 规则 ，x 对 应 v( 优 于 )，z 对 应 *( 不 如 )。 

数据 集 iris 一 行 的 开始 部 分 有 一 个 值 (100)， 表 示 当 前 测试 的 运行 次 数 ， 十 折 交 叉 验 证 
运行 10 次 共 为 100 次 。 

第 三 部 分 比较 简单 ， 只 是 显示 当前 的 学 习 方 案 。Key 标题 下 的 三 个 学 习 方案 默认 显示 
为 三 个 部 分 ，Scheme( 方 案 名 称 )、Scheme_options( 方 案 选 项 ) 和 Scheme_ version ID( 方 案 版 
本 ID)。 

现在 ， 选 中 Show std. deviations 复 选 框 ， 然 后 单 击 Perform test 按钮 再 次 启动 测试 ， 测 
试 输 出 区 域 显示 如 图 4.84 所 示 的 结果 。 与 图 4.83 相 比 ， 图 4.84 在 单元 格 括号 中 显示 了 评 
估 的 标准 偏差 。 


Daraser (1) rules.ZeroR '' | (2) rules.OneR (3) trees.I48 ， 
iris NR (100) 33.33(0.00) | 92.53(5.47) vy 94.73(5.30) v 

(ww A) 1 {1/0/0) (1/0/0) 
Key: 


(1) rules.ZeroR '' 48055541465867954 
(2) rules.OneR '-B 6' -3459427003147861443 
(3) trees.J48 '-C 0.25 -M 2' -217733168393644444 


图 4.84 显示 标准 偏差 


然后 ， 单 击 Comparison field 选项 后 面 的 下 拉 列 表 框 ， 设 置 Number_correct 为 比较 字 
段 ， 并 单 击 Perform test 按钮 ， 测 试 输出 区 域 显示 如 图 4.85 所 示 的 比较 矩阵 。 以 第 一 列 为 
例 ， 说 明 如 何 与 Percent correct 相 比 较 。 我 们 已 知 ZeroR 的 正确 率 为 33.33%， 而 正确 数量 
为 5.00。 表 面 上 看 ， 这 二 者 并 没有 直接 的 联系 。 但 经 过 分 析 ， 实 验 类 型 是 十 折 交 叉 验 证 ， 
也 就 是 将 iris 数据 集 里 的 150 个 实例 分 为 10 折 ， 每 折 15 个 实例 ， 这 样 ， 使 用 其 中 一 折 作 
为 交叉 验证 的 测试 集 ， 在 15 个 实例 中 有 5 个 实例 预测 正确 ， 因 此 正确 率 为 33.33%， 说 明 
Percent _ correct 和 Number correct 二 者 只 是 在 显示 的 形式 上 不 同 ， 并 没有 实质 差异 。 


Dataset (1) zules.Z | (2) rules (3) trees 
iris (100) 5.00 | 13.88 V 14.21 V 
(vi A/*) 1 {1/0/0) {1/0/0) 


4.85 将 Number_correct 作为 比较 字段 的 结果 
2. 更 改 基线 方案 


本 示例 主要 完成 更 改 基 线 方案 、 总 结 测试 和 排名 测试 等 实验 。 
首先 切换 至 Setup 标签 页 ， 在 上 一 例 的 基础 上 添加 glass 数据 集 ， 其 余 选 项 均 不 变 。 在 
Run 标签 页 重新 运行 实验 ， 然 后 切换 至 Analyse 标签 页 。 单 击 Experiment 按钮 导入 运行 结 
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数据 挖 所 与 机 器 学 习 
果 ， 再 单 击 Perform test 按钮 对 实验 结果 进行 分 析 ， 测 试 结果 如 图 4.86 所 示 。 可 见 ， 添 加 
一 个 数据 集 只 不 过 在 测试 结果 比较 和 矩阵 中 多 列 出 一 行 ， 其 他 并 没有 什么 变化 。 当 然 ， 我 们 
可 以 多 添加 一 些 数据 集 ， 比 较 不 同学 习 方案 在 不 同 数据 集 上 的 表现 。 


Dataset (1) rules.Ze | (2) rules (3) trees 
iris {100) 33.33 | 92.53v 94.73v 
Glass {100) 35.51 | 57.40v 67.63v 

(wy As) 1 {2/0/0) (2/0/0) 
Key: 


{1) rules.ZeroR '' 48055541465867954 
(2) rules.OneR '-B 6' -3459427003147861443 
(3) trees.J48 '-C 0.25 -M 2' -217733168393644444 


4.86 ”两 个 数据 集 的 运行 结果 


下 一 步 ， 更 改 基 线 方案 。 单 击 Test base 选项 后 面 的 Select 按钮 ， 在 弹出 的 对 话 框 中 选 
择 J48 为 新 的 基线 方案 ， 如 图 4.87 所 示 。 然 后 单 击 Select 按钮 关闭 对 话 框 。 

再 次 单 击 Perform test 按钮 对 实验 结果 进行 分 析 ， 更 改 基 线 方案 后 的 比较 矩阵 如 图 4.88 
所 示 。 可 以 看 到 ， 更 改 基线 方案 后 ， 只 是 将 基线 作为 其 他 方案 比较 的 对 象 ， 将 基线 方案 移 
到 比较 矩阵 的 第 一 列 。 本 例 中 ，ZeroR 两 次 都 不 及 J48 基线 方案 ，OneR 有 一 次 (在 iris 数据 
集 上 ) 和 J48 相当 ， 一 次 (在 glass 数据 集 上 ) 不 如 J48。 通 过 比较 和 矩阵， 容易 得 到 不 同 的 学 习 
方案 在 多 个 不 同 数据 集 上 的 统计 性 能 排名 ， 从 而 了 解 学 习 方案 的 综合 性 能 排名 。 当 然 ， 如 
果 学 习 方案 和 数据 集 的 数目 很 大 时 ， 通 过 人 眼 比较 不 同学 习 方 案 的 综合 性 能 有 些 困难 ， 因 
此 ，Weka 提供 了 总 结 测试 和 排名 测试 ， 帮 助 用 户 较 快 地 得 出 结论 。 


Dataset (3) trees.J4 | (1) rules (2) rules 
iris (100) 94.73 | 33.33 * 92.53 
Glass (100) 67.63 | 35.51 * 57.40 * 
(vA /A*) 1 (0/0/2) (0/1/1) 
图 4.87 选择 新 的 基线 方案 图 4.88 ”更改 基线 方案 后 的 比较 矩阵 


下 一 步 ， 基 线 方 案 改 为 Summary， 进 行 总 结 测试 。 重 新 测试 后 得 到 如 图 4.89 所 示 的 测 
试 结果 。 在 图 4.89 中 ， 第 一 行 (-2 2) 表 示 b 列 (OneR) 优 于 a 行 (ZeroR) 两 次 ， 且 c 列 (J48) 也 
优 于 a 行 两 次 。 主 对 角 线 上 的 单元 格 里 全 是 “-”， 因 为 行 下 标 与 列 下 标 相 同 表 示 是 同一 
个 学 习 方 案 ， 没 有 比较 的 意义 。 括 号 中 的 数字 表示 该 单元 格 所 在 列 对 应 的 方案 与 所 在 行 对 
应 的 方案 相 比 ， 在 统计 显著 性 上 胜出 的 次 数 。0 表示 单元 格 所 在 列 对 应 的 方案 与 所 在 行 对 
应 的 方案 相 比 ， 在 统计 显著 性 上 没有 得 分 。 


a b c (No. of datasets where [col] >> [row]) 
-2 (2)2 (2) |a= (1) rules.ZeroR '' 48055541465867954 

0 (0) -2 (1) 1b= (2) rules.OneR '-B 6' -3459427003147861443 

0 (0) 0 (0) - 1 c= (3) trees.J48 '-C 0.25 -M 2' -217733168393644444 


图 4.89 总 结 测试 结果 
最 后 ， 将 基线 方案 改 为 Ranking， 进 行 排名 测试 。 重 新 测试 后 得 到 如 图 4.90 所 示 的 测 


试 结果 。 排 名 测试 根据 方案 对 其 他 方案 的 统计 显著 性 ， 得 到 优 于 (>) 和 不 如 (的 测试 总 
数 ， 这 两 个 总 数 构成 测试 结果 和 矩阵 的 第 二 列 和 第 三 列 。 第 一 列 (> - <) 是 优 于 的 数量 减 去 不 
如 的 数量 ， 该 列 用 来 产生 排名 。 本 例 中 ，J48 排名 第 一 ，OneR 排名 第 二 ，ZeroR 排名 末 位 。 


> < Resultset 

3 0 trees.J48 '-C 0.25 -M 2' -217733168393644444 
1 2 1 rules.OneR '-B 6' -3459427003147861443 

0 4 rules.ZeroR '' 48055541465867954 


4.90 ”排名 测试 结果 


4.1 既然 有 了 探索 者 和 知识 流 界 面 ， 为 什么 还 需要 实验 者 界面 ? 

4.2 简 述 简单 实验 设置 的 步骤 。 

4.3 与 简单 实验 模式 相 比 ， 实 验 者 界面 的 高 级 实验 模式 增加 了 什么 功能 ? 
4.4 远程 实验 有 什么 用 处 ? 远程 实验 的 难点 是 什么 ? 

4.5 多 核 CPU 是 否 线程 数 越 多 性 能 越 好 ? 

4.6 什么 是 基线 方案 ?设置 基线 方案 的 目的 是 什么 ? 

4.7 总 结 测试 和 排名 测试 有 什么 用 处 ? 各 自 有 什么 特点 ? 
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Weka 的 图 形 用 户 交互 界面 十 分 丰富 ， 有 探索 者 界面 、 知 识 流 界面 和 
实验 者 界面 。 在 这 些 交 互 界面 的 背后 ， 隐 藏 着 Weka 的 基本 功能 。 这 些 功 
能 可 以 直接 通过 命令 行 界面 进行 访问 ， 用 户 通过 输入 命令 ， 可 以 更 好 地 、 

最 大 限度 地 使 用 Weka 提供 的 功能 。 因 为 命令 行 提供 一 些 图 形 用 户 界 面 不 
曾 提 供 的 功能 ， 并 且 内 存 消耗 更 少 。 
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一 一 WEKA 应 用 


5.1 命令 行 界面 介绍 


Weka 提供 两 种 命令 行 界面 : 一 种 直接 使 用 操作 系统 的 命令 行 ， 如 Windows 的 cmd 窗 
口 ， 另 一 种 是 Weka 提供 的 Simple CLI， 或 称 为 简单 命令 行 。 

在 Weka GUI 选择 器 窗口 中 ， 单 击 Simple CLI 按钮 ， 就 能 打开 简单 命令 行 界面 ， 
如 图 5.1 所 示 。 


5.1 简单 命令 行 界面 


Weka 的 简单 命令 行 界面 很 简单 。 界 面 的 主要 部 分 是 一 个 只 读 的 多 行文 本 框 ， 用 于 显 
示 命 令 执行 的 结果 。 界 面 底部 是 一 个 单行 输入 文本 框 ， 用 于 输入 命令 。 和 DOS 命令 行 相 
似 ， 在 输入 命令 的 单行 文本 框 中 ， 可 以 使 用 上 下 方向 键 来 查找 以 前 输入 过 的 命令 ， 可 以 在 
原来 命令 的 基础 上 修改 ， 或 直接 按 Enter 键 再 次 执行 命令 。 

为 了 区 分 文件 和 Java 类 ， 文 件 名 必须 以 绝对 路 径 或 “\” 或 “ 1” 开始 ， 前 者 是 Weka 
的 安装 目录 ， 后 者 是 用 户 目录 (在 Windows 下 一 般 为 C:\Users\ 用 户 名 ) 的 快捷 方式 。 另 外 ， 
Alt+Backspace 组 合 键 用 于 在 命令 行 中 成 块 删除 文本 。 


注意 : ”Windows 系统 一 般 使 用 反 针 杠 “\” 作 为 路 径 分 隔 符 ，Unix 系统 一 般 使 用 儿 
杠 “/” 作 为 路 径 分 隔 符 ，Weka 简单 命令 行 同时 支持 这 两 种 针 杠 ， 甚 至 可 以 
在 同一 个 路 径 中 混用 。 


Weka 简单 命令 行 支持 如 下 命令 。 

(1) java <classname> <args> [ > file]: 使 用 给 定 的 参数 (如 果 有 的 话 ) 调 用 一 个 Java 类 ， 
参数 须 在 args 位 置 指定 ，Java 类 在 classname 位 置 指定 ， 还 可 以 用 重 定向 操作 符 (>) 将 结果 
输出 到 指定 文件 。 

(2) break: 以 友好 的 方式 停止 当前 线程 ， 例 如 ， 正 在 运行 的 分 类 器 。 如 果 没 有 在 可 接 
受 的 时 间 内 响应 ， 请 使 用 kill 命令 。 

(3) kill:， 以 不 友好 的 方式 停止 当前 线程 。 只 限于 在 break 命令 不 起 作用 的 场合 下 使 用 。 

(4) capabilities <classname> <args>: 列 出 指定 类 的 功能 。 例 如 ， 列 出 带 选 项 的 分 类 器 
功能 : 


capabilities weka.classifiers.meta.Bagging -W weka.classifiers.trees.J48 


(5) cls: 清除 输出 区 域 。 

(6) history: 打印 所 有 执行 过 的 命令 。 

(7) exit: 退出 简单 命令 行 界面 。 

(8) help <command>: 如 果 不 带 命令 名 称 作为 参数 ， 则 显示 可 用 命令 的 概要 说 明 ， 如 
图 5.1 所 示 ; 和 否则， 显示 指定 命令 的 更 详细 的 帮助 。 


5.1.1 命令 调用 

为 了 调用 Weka 中 的 类 ， 只 需要 在 类 的 前 面 添 加 命令 前 级 java。 该 命令 告诉 简单 命令 
行 界面 加 载 一 个 Java 类 ， 并 带 给 定 的 参数 执行 命令 。 例 如 ， 可 以 调用 J48 分 类 器 对 高 尾 花 
数据 集 进行 分 类 ， 使 用 如 下 命令 : 

java weka.classifiers.trees.J48 -t c:/Weka-3-7/data/iris.arff 

上 述 命令 调用 Java 虚拟 机 ， 并 指示 虚拟 机 执行 J48 分 类 器 对 高 尾 花 数据 集 分 类 。 在 简 
单 命令 行 界面 中 已 经 加 载 了 Java 虚拟 机 ， 运 行 结 果 如 图 5.2 所 示 。 


图 5.2 ”J48 运行 结果 


注意 到 J48 前 用 句点 “.” 分 割 的 英文 单词 ， 这 是 Java 包 的 表示 法 。Weka 以 类 似 于 目 
录 层 次 结构 的 形式 来 组 织 包 ， 只 不 过 采用 句点 “.” 来 蔡 代目 录 层 次 的 反 斜 枉 “\”。 例 
如 ， 上 面 执行 的 程序 称 为 48， 位 于 trees 包 之 下 ， 而 trees 包 又 是 classifiers 包 的 子 包 ， 
classifiers 包 又 是 所 有 包 的 根 weka 包 的 子 包 。 下 一 节 将 给 出 更 详细 的 包 结 构 。-t 选项 指定 
下 一 个 参数 为 训练 文件 的 名 称 ， 这 里 假设 的 天 气 数 据 集 位 于 data 子 目 录 下 。 

如 果 在 命令 后 添加 “> 文件 名 ”， 那 么 Weka 会 执行 基本 的 重 定向 操作 ， 也 就 是 将 输 
出 文字 保存 到 文件 中 。 例 如 : 

java weka.classifiers.trees.J48 -t c:/Weka-3-7/data/iris.arff > j48.txt 

执行 命令 后 ，Weka 不 再 将 命令 结果 显示 在 窗口 中 ， 仅 显示 完成 重 定向 输出 到 文件 的 
信息 ， 如 图 5.3 所 示 。 在 Weka 的 安装 目录 下 ， 可 以 找到 j48.txt 文件 ， 可 以 使 用 任意 文本 
编辑 器 查看 其 内 容 。 
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一 一 WEKA 启 | 


图 5.3 重 定向 的 输出 
王 注意 : ”在 重 定向 符号 “>” 的 前 后 都 应 该 有 一 个 空格 符 ， 否 则 Weka 就 不 会 认定 是 重 
定向 ， 而 认为 是 另 一 个 参数 的 一 部 分 。 


5.1.2 ”命令 自动 完成 

通过 按 Tab 键 ， 以 java 开始 的 命令 能 够 支持 类 名 和 文件 名 的 自动 完成 ， 这 个 功能 节省 
了 用 户 输入 的 时 间 ， 并 减少 了 精确 记忆 复杂 名 称 的 烦琐 工作 。 如 果 匹 配 类 名 和 文件 名 不 
止 一 个 ，Weka 会 列 出 所 有 可 能 的 匹配 。 另 外 ， 使 用 Alt+Backspace 组 合 键 可 以 成 批 删除 
命令 。 

1. 包 名 的 自动 完成 

假如 输入 如 下 命令 : 

java weka.cl 
然后 再 按 Tab 键 ， 简 单 命令 行 窗口 会 显示 匹配 两 个 包 名 ， 即 weka.classifiers 和 
weka.clusterers， 如 图 5.4 所 示 。 如 果 用 户 想 选择 分 类 器 包 ， 则 可 以 在 命令 末尾 再 输入 一 个 
a 字 符 ， 然 后 再 按 Tab 键 ， 这 时 用 户 会 惊喜 地 发 现 Weka 已 经 自动 完成 了 剩余 的 输入 。 


图 5.4 包 名 自动 完成 


2. 类 名 的 自动 完成 
假如 输入 如 下 命令 : 


java weka.classifiers.meta.A 
然后 再 按 Tab 键 ， 简 单 命令 行 窗口 会 显示 匹配 三 个 类 名 ， 即 wekaclassifiers meta.AdaBoostMI1 、 
Weka.classifiers .meta.AdditiveRegression 和 weka.classifiers meta.AttributeSelectedClassifier， 
用 户 可 按照 前 面 讲述 的 方法 完成 输入 。 

3. 文件 名 的 自动 完成 

为 了 让 Weka 能 够 确定 当前 光标 下 的 字符 串 到 底 是 类 名 还 是 文件 名 ， 文 件 名 必须 使 用 
绝对 路 径 或 者 以 句点 “.” 开 头 的 相对 路 径 。 例 如 ， 绝 对 路 径 的 例子 有 : UNIX/Linux 使 用 
/some/path/file，Windows 则 使 用 Ci:\some\path\file; 相对 路 径 的 例子 有 : UNIX/Linux 使 
用 ./some/other/path/file, Windows 则 使 用 \somevotherpath\file。 


5.2 Weka 结构 


前 面 章节 已 经 介绍 了 如 何 使 用 探索 者 界面 来 调用 过 滤器 和 学 习 方案 ， 以 及 使 用 知识 流 
界面 来 将 过 滤器 和 学 习 方 案 等 组 件 连接 起 来 。 为 了 深入 研究 Weka， 有 必要 探究 Weka 是 怎 
样 将 这 些 组 件 组 合 在 一 起 的 。Weka 分 发 软件 包 中 的 包 文 档 (package documentation) 已 经 包 
含 了 详细 的 、 最 新 的 文档 信息 。 比 起 在 探索 者 和 知识 流 界 面 的 通用 对 象 编辑 器 中 单 击 More 
按钮 得 到 的 学 习 方 案 和 过 滤 方 案 的 描述 ， 包 文档 信息 的 技术 性 要 强 很 多 。 它 是 使 用 Sun 的 
Javadoc 工具 根据 源 代 码 中 的 注释 直接 生成 的 。 要 想 了 解 文档 结构 ， 有 必要 掌握 Java 程序 
的 一 些 基础 知识 ， 而 且 这 也 能 为 后 续 章 节 的 Weka API 学 习 以 及 源 代码 分 析 打 下 基础 。 


5.2.1 类 实例 和 包 


每 个 Java 程序 都 实现 为 一 个 类 或 类 的 集合 。 在 面向 对 象 编程 中 ， 一 个 类 是 变量 的 集合 
以 及 对 它们 进行 操作 的 一 些 方法 的 集合 ， 它 们 共同 定义 了 属于 某 个 类 的 对 象 的 行为 。 对 象 
就 是 实例 化 的 类 ， 该 类 的 所 有 变量 都 已 经 赋值 。 在 Java 中 ， 对 象 也 称 为 类 的 实例 。 不 幸 的 
是 ， 这 与 本 书 前 文 使 用 的 术语 有 所 冲突 ， 类 (class) 和 实例 (instance) 也 出 现在 完全 不 同 的 机 
器 学 习 领 域 的 背景 下 。 因 此 ， 有 时 需要 从 上 下 文 推断 出 这 些 术 语 的 本 意 。 本 书 中 ， 在 Java 
背景 下 使 用 类 和 对 象 这 两 个 术语 ， 而 在 机 器 学 习 背 景 下 则 使 用 类 别 和 实例 这 两 个 术语 ， 以 
示 区 别 。 

在 Weka 中 ， 类 用 于 封装 特定 的 学 习 算 法 的 实现 ， 它 的 一 些 功 能 可 能 依赖 于 其 他 类 。 
例如 ， 前 文 所 述 的 J48 类 构建 了 C4.5 决策 树 ，Java 虚拟 机 每 次 执行 J48 时 ， 都 会 为 构建 和 
存储 决策 树 分 类 器 分 配 内 存 以 创建 该 类 的 实例 。J48 类 的 实例 化 对 象 包括 算法 、 所 构建 的 
分 类 器 ， 以 及 输出 分 类 器 的 程序 。 

通常 将 较 大 的 程序 分 解 为 一 个 以 上 的 类 ， 以 方便 理解 和 实现 ， 毕 竟 分 解 是 将 复杂 问题 
简单 化 的 重要 方法 。 例 如 ，J48 类 实际 上 并 不 包含 构建 决策 树 的 代码 ， 它 只 是 将 完成 大 部 
分 工作 的 其 他 类 的 实例 的 引用 包括 进来 。 由 于 Weka 实现 了 很 多 机 器 学 习 算法 ， 添 加 算法 
就 意味 着 添加 类 。 当 Weka 有 很 多 类 以 后 ， 这 些 类 就 变 得 很 难 理解 和 导航 ， 这 里 的 导航 是 
指 从 一 个 类 的 文档 说 明 跳 转 到 另 一 个 相关 类 的 文档 说 明 。Java 允许 将 类 组 织 成 包 的 形式 ， 
包 的 概念 不 难 理解 ， 它 仅仅 是 一 个 包含 相关 类 集合 的 目录 ， 例 如 ， 前 面 提 到 的 trees 包 就 包 
含 了 实现 决策 树 的 所 有 类 。 按 照 对 应 的 目录 层次 结构 ， 将 包 组 织 为 层次 结构 。 例 如 ，trees 
包 是 classifiers 包 的 一 个 子 包 ， 而 classifiers 包 本 身 又 是 整体 weka 包 的 一 个 子 包 。 

在 Weka 安装 目录 的 doc 子 目 录 下 ， 用 户 可 在 资源 管理 器 下 双击 index.html 文件 ， 这 
样 会 启动 Web 浏览 器 并 打开 API 文档 ， 如 图 5.5 所 示 。 注 意 到 页 面 顶部 有 两 个 超 链 接 : 
Frames 和 No Frames。 图 5.5 使 用 的 是 Frames 风格 ， 其 中 ， 左 上 部 显示 的 是 按 字 母 顺 序 所 
列 的 所 有 Weka 包 的 列表 ， 左 下 部 显示 的 是 按 字 母 顺 序 排列 的 所 有 Weka 类 的 列表 ， 单 击 
某 个 类 的 名 称 则 在 页 面 的 主要 部 分 显示 该 类 的 API 说 明 。 使 用 No Frames 风格 则 可 以 看 到 
更 为 简洁 的 信息 。 


rr 
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5.5 Weka API 文 档 


5.2.2 weka.core 包 


core( 核 心 ) 包 是 Weka 系统 的 核心 ， 几 乎 所 有 的 其 他 类 都 访问 核心 包 里 的 类 。 可 以 单 击 
图 5.5 所 示 页 面 左上 部 的 weka.core 超 链接 以 了 解 包 内 包含 什么 内 容 。 如 图 5.6 所 示 ， 页 面 
左下 部 显示 核心 包 内 的 对 象 ， 按 功能 将 其 分 为 Interfaces( 接 口 )、Classes( 类 )、Enums( 枚 
举 )、Exceptions( 例 外 ) 和 Annotation Types( 标 注 类 型 ) 五 个 部 分 。 前 两 个 部 分 比较 重要 ， 其 
中 ，Classes 部 分 列 出 了 核心 包 里 的 类 ，Interfaces 部 分 则 列 出 核心 包 提供 的 接口 。 接 口 与 
类 相似 ， 唯 一 的 区 别 是 接口 本 身 基 本 不 做 任何 工作 ， 它 仅仅 列 出 一 些 没 有 真正 实现 的 方 
法 ， 只 有 这 些 接口 的 实现 类 才 为 这 些 方法 提供 实现 代码 。 例 如 ，OptionHandler 接口 定义 了 
处 理 命令 行 选项 的 各 种 方法 ， 实 现 该 接口 的 类 (包括 全 部 的 分 类 器 ) 必 须 提供 这 些 方法 的 实 


现代 码 。 


Interfaces 


AdditionalMeasureProducer 
Aggregateable 
BatchPredictor 
CapabilitesHandler 
Capablitieslgnorer 
CommandlineRunnable 


isplay StringProvider 
DistanceFunction 
Drawable 
EnvironmentHandier 
Instance 
LogHandler 
Matchable 
MultilnstanceCapabiliiesHandler 
OptionHandler 
PartitionGenerator 
Randomizable Ma 


图 5.6 ”核心 包 内 的 对 象 
核心 包 中 的 关键 类 是 Attribute、Instance 和 Instances。Attribute 类 的 对 象 表示 一 个 属 
性 ， 包 括 属 性 的 名 称 、 属 性 的 类 型 ， 如 果 是 标 称 型 或 字符 串 型 属性 ， 则 还 应 该 包括 可 能 的 
值 。Instance 类 的 对 象 包含 特定 实例 的 属性 值 。Instances 类 的 对 象 包含 有 序 的 实例 集合 ， 
即 数 据 集 。 通 过 单 击 这 些 类 所 对 应 的 超 链接 ， 可 以 了 解 这 些 类 的 更 多 有 关 信 息 。 


@ 


5.2.3 weka.classifiers 包 


classifiers 包 中 包含 大 部 分 分 类 算法 和 数值 预测 算法 的 实现 。 前 文 已 经 叙述 过 ，Weka 
将 分 类 和 回归 都 归 为 分 类 问题 ， 因 此 数值 预测 算法 也 包含 在 分 类 器 中 ， 因 为 数值 预测 可 以 
解释 为 对 连续 型 类 别 值 的 预测 。 该 包 中 最 为 重要 的 是 Classifier 接口 ， 它 定义 了 分 类 或 数值 
预测 方案 的 总 体 结构 ， 其 他 的 分 类 器 都 要 实现 该 接口 。Classifier 接口 包含 三 个 重要 的 方 
法 : buildClassifier()、classifyInstance() 和 distributionForInstance()。 在 面向 对 象 编程 的 术语 
中 ， 学 习 算 法 都 是 Classifier 的 子 类 ， 因 此 自动 继承 了 这 三 种 方法 ， 并 且 每 个 学 习 方案 重新 
定义 如 何 建立 一 个 分 类 器 ， 以 及 如 何 对 实例 进行 分 类 。 这 样 ， 给 出 一 个 从 其 他 Java 代码 来 
构建 和 使 用 分 类 器 的 统一 接口 。 因 此 ， 相 同 的 评估 模块 可 以 用 于 对 Weka 中 任意 分 类 器 的 
性 能 进行 评估 。 

现在 看 一 个 例子 ， 单 击 weka.classifiers trees 包 下 的 DecisionStump 分 类 器 ， 页 面 显示 
该 分 类 器 的 说 明 。 它 用 于 构建 一 个 简单 的 一 级 二 元 决策 树 ， 缺 失 值 作为 一 个 额外 的 值 。 也 
就 是 说 ， 该 决策 树 只 有 一 个 内 部 节点 ( 根 节点 )， 内 部 节点 直接 连接 到 两 个 叶 节 点 。 其 文档 
页 面 如 图 5.7 所 示 ， 在 页 面 上 部 可 以 看 到 ， 该 类 的 完全 限定 名 称 为 
WwWeka.classifiers.trees.DecisionStump 。 当 用 户 需 要 构建 一 个 决策 树 时 ， 必 须 在 命令 行 中 使 用 
这 个 相当 长 的 名 称 。 正 如 读者 所 见 ， 长 长 的 类 名 位 于 一 个 树 形 结构 的 末端 ， 显 示 相 关 的 类 
层次 结构 的 一 小 部 分 ，DecisionStump 是 weka.classifiers.AbstractClassifier 类 的 一 个 子 类 ， 
后 者 本 身 又 是 java.lang.Object 类 的 子 类 。 在 Java 中 ，Object 类 是 最 普遍 的 类 ， 所 有 的 类 
都 自动 继承 Object 类 。 
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5.7 ”DecisionStump 决策 树 


页 面 中 首先 显示 该 类 的 一 些 通用 信息 ， 如 简介 、 版 本 、 作 者 等 ， 然 后 给 出 该 类 的 构 
造 函 数 和 方法 的 索引 。 构 造 函数 是 一 种 特殊 的 方法 ， 在 创建 一 个 该 类 的 对 象 时 进行 调用 ， 
通常 在 构造 函数 中 初始 化 共同 定义 其 状态 的 变量 。 方 法 的 索引 列 出 了 每 一 个 方法 的 名 称 、 
参数 的 类 型 以 及 其 功能 的 简短 描述 。 在 这 些 索 引 之 下 ， 页 面 中 更 详细 地 说 明了 构造 函数 和 
方法 。 

DecisionStump 重 写 了 AbstractClassifier 类 的 distributionForInstance() 方 法 和 
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数据 挖 所 与 机 器 学 习 
classifyInstance() 方 法 ， 后 者 用 于 对 实例 进行 分 类 。 此 外 ， 它 还 包含 getCapabilities()、 
getRevision()、globalInfo()、toString()、toSource0) 和 main() 方 法 。 其 中 ，getCapabilities() 方 
法 由 通用 对 象 编辑 器 调用 ， 以 提供 学 习 方 案 的 能 力 信息 。 在 调用 构建 分 类 器 模型 的 
buildClassifier() 方 法 时 ， 会 针对 训练 数据 检查 学 习 方 案 的 能 力 ， 如 果 分 类 器 所 描述 的 能 力 
与 训练 数据 特性 不 匹配 ， 则 抛 出 一 个 错误 。Classifier 类 中 就 有 getCapabilities() 方 法 ， 默 认 
情况 下 ， 该 方法 启用 所 有 功能 ， 即 没有 任何 限制 。 这 使 得 Weka 新 程序 员 更 容易 入 门 ， 因 
为 他 们 不 需要 在 一 开始 就 学 习 并 分 辨 不 同 分 类 器 的 特定 能 力 。getRevision() 方 法 简单 地 返 
回 分 类 器 的 版 本 号 ，weka.core 包 有 一 个 工具 类 将 它 打 印 到 屏幕 上 。 在 用 户 报告 问题 时 需要 
说 明 版 本 号 ，Weka 开发 维护 人 员 需 要 用 它 来 诊断 和 调试 问题 。globalInfo() 方 法 返回 分 类 器 
的 描述 字符 串 ， 以 及 该 分 类 器 的 选项 ， 在 通用 对 象 编辑 器 对 话 框 中 单 击 More 按钮 时 可 显 
示 这 些 信息 。toString() 方 法 返回 分 类 器 的 文字 表述 ， 用 于 将 其 显示 在 屏幕 上 。toSource() 方 
法 用 于 获取 训练 过 的 分 类 器 的 源码 表示 。 当 从 命令 行 请 求 决 策 树 时 ， 调 用 main() 方 法 。 换 
名 话说， 每 次 输入 如 下 语句 开始 的 命令 : 
java weka.classifiers.trees.DecisionStump 
main() 方 法 就 会 执行 ， 以 测试 本 Java 类 是 否 可 用 。 所 有 的 学 习 方法 和 过 滤 算 法 都 实现 了 
main() 方 法 ， 如 果 类 中 存在 main() 方 法 ， 就 可 以 在 命令 行 中 运行 。 


5.2.4 其 他 包 


其 他 一 些 包 也 值得 一 提 ， 如 weka.associations 、 weka.clusterers 、 weka.datagenerators 、 
weka.estimators、weka.filters 和 weka.attributeSelection。weka.associations 包 中 包含 关联 规 
则 的 学 习 器 ， 将 这 些 学 习 器 放 在 单独 的 包 中 是 因为 关联 规则 与 分 类 器 存在 本 质 的 不 同 。 
weka.clusterers 包 中 包含 无 监督 学 习 的 方法 。 使 用 weka.datagenerators 中 的 类 可 以 产生 人 工 
数据 。weka.estimators 包 中 包含 一 个 通用 的 Estimator 类 ， 它 计算 不 同类 型 的 概率 分 布 ， 其 
子 类 可 用 于 朴素 贝 叶 斯 算法 。 在 weka.filters 包 中 ，Filter 类 定义 了 包含 过 滤 算 法 的 类 的 一 
般 结构 ， 这 些 都 实现 为 Filter 类 的 子 类 。 过 滤器 可 以 像 分 类 器 一 样 用 在 命令 行 中 。 
weka.attributeSelection 包 中 包含 一 些 用 于 属性 选择 (属性 评估 、 属 性 转换 、 排 名 、 属 性 子 集 
评估 、 属 性 子 集 搜 索 等 ) 的 接口 和 类 。 


5.3 ”命令 行 选 项 


在 前 面 的 例子 中 ， 在 命令 行 中 采用 -t 选项 指定 学 习 方 案 所 使 用 的 训练 文件 名 称 。 还 有 
许多 其 他 选项 可 以 用 于 全 部 的 学 习 方 案 ， 也 有 一 些 选 项 只 适用 于 特定 的 学 习 方 案 。 如 果 使 
用 -h 或 -help 选项 调用 学 习 方 案 ， 或 者 根本 不 带 任何 命令 行 选 项 ，Weka 会 显示 可 用 的 选 
项 ， 首 先是 常规 选项 ， 然 后 是 特定 学 习 方案 的 选项 。 例 如 ， 在 命令 行 界面 ， 输 入 如 下 命令 : 


java weka.classifiers.trees.J48 ~h 


命令 行 窗口 就 会 显示 如 图 5.8 所 示 的 运行 结果 。 其 中 ， 首 先 显示 的 是 对 所 有 的 学 习 方 案 都 
适用 的 常规 选项 ， 然 后 是 只 适用 于 J48 的 特定 选项 。 


5.3.1 常规 选项 


表 5.1 中 的 选项 确定 哪些 数据 用 于 训练 及 测试 ， 如 何 评估 分 类 器 ， 以 及 显示 什么 样 的 
统计 数据 。 例 如 ， 当 使 用 独立 测试 集 来 评估 学 习 方 案 时 ，-T 选项 用 于 提供 测试 文件 的 名 
称 。 默 认 情 况 下 ， 类 别 属性 是 ARFF 文件 中 的 最 后 一 个 属性 ， 但 也 可 以 声明 另 一 个 属性 为 
类 别 属性 ， 只 需 使 用 -ce 选项 ， 并 在 其 后 紧 接 期 望 属性 的 位 置 ，1 代表 第 一 个 属性 ，2 代表 


第 二 个 属性 ， 依 次 类 推 。 


选 项 
-h 或 -help 
-synopsis 或 -info 
-t< 训 练 文件 名 称 > 


图 5.8 运行 结果 


为 了 更 清楚 地 进行 学 习 ， 下 面 分 别 对 常规 选项 和 特定 选项 进行 解释 。 


表 5.1 Weka 学 习 方 案 的 常规 选项 


功 能 
输出 帮助 信息 
与 -h 选项 一 起 使 用 ， 输 出 分 类 器 的 简介 
设置 训练 文件 


-T < 测试 文件 名 称 > 设置 测试 文件 。 如 果 空 缺 ， 则 用 训练 数据 进行 交叉 验证 

-c< 类 别 索引 > 设置 类 别 属性 索引 ， 默 认为 “last”， 即 最 后 一 个 属性 为 类 别 属性 
-xX < 折 数 > 设置 交叉 验证 的 折 数 ， 默 认 值 为 10 

-no-cV 不 进行 交叉 验证 


-force-batch-training 
-split-percentage < 百分比 > 


总 是 使 用 批 处 理 模式 训练 分 类 器 ， 不 使 用 增 量 模式 
设置 训练 /测试 集 分 割 的 百分比 ， 如 66 


-preserve-order 保持 按 百分比 分 割 的 (实例 ) 顺 序 
-s < 随机 数 种 子 > 设置 进行 交叉 验证 或 按 百 分 比分 割 的 随机 数 种 子 ， 默 认 值 为 1 
-< 代价 矩阵 文件 名 称 > 设置 代价 矩阵 文件 


-disable < 逗号 分 隔 的 评估 度 
量 名 称 列表 > 


以 逗号 分 隔 的 不 打印 输出 的 度量 名 称 列表 。 

可 选 度量 : Correct、Incorrect、Kappa、Total cost、Average cost、 
KB relative 、 KB Information 、 Complexity 0 、 
Complexity scheme 、 Complexity improvement 、MAE 、RMSE 、 
RAE、 RRSE、 Coverage、 Region size、 TP rate、 FP rate、Precision、 
Recall、F-measure、MCC、ROC area、PRC area 


Correlation 、 
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续 表 
选 项 功 能 
设置 模型 的 输入 文件 。 当 文件 名 以 xml 结尾 时 ， 加 载 PMML 文件 ， 
-| NN 6 
ne 如 果 加 载 失 败 ， 则 从 XML 文件 中 加 载 选项 
设置 模型 的 输出 文件 。 当 文件 名 以 xml 结尾 时 ， 仅 将 选项 保存 至 
3 
nl XML 文件 ， 不 保存 模型 
要 不 输出 训练 数据 统计 信息 
可 只 输出 统计 信息 ， 不 输出 分 类 器 
nop 对 每 个 类 别 不 输出 统计 信息 
statistics 
旺 输出 信息 理论 统计 信息 
-classifications 
"weka.classifiers. 使 用 指定 类 产生 类 别 输出 。 如 


evaluation.output.prediction. 


AbstractOutput + 选项 " 
-p 范围 


-distribution 


工 
-Z< 类 名 > 


-xml 文件 名 | xml- 字 符 串 
-threshold-file < 文件 > 


-threshold-label < 标签 > 


-no-predictions 


weka.classifiers.evaluation.output.prediction.PlainText 


输出 测试 实例 (或 训练 实例 ， 如 果 不 提供 测试 实例 并 且 使 用 -no-cv 选 
项 ) 的 预测 ， 以 及 在 指定 范围 内 的 属性 ， 其 他 不 输出 。 

如 果 没 有 期 望 输出 的 属性 ， 使 用 “-p 0”。 

已 弃 用 ， 请 使 用 -classifications 代替 

仅 用 于 标 称 型 类 别 ， 与 -p 选项 连用 ， 输 出 的 是 (类 别 ) 分 布 而 非 预测 。 
已 弃 用 ， 请 使 用 -classifications 代 蔡 


只 输出 累积 的 边缘 分 布 
只 输出 分 类 器 的 源码 表示 ， 为 它 提供 名 称 
只 输出 分 类 器 的 图 形 表示 


不 从 命令 行 ， 而 是 从 XML 数据 中 检索 选项 

要 保存 阔 值 数据 的 文件 。 格 式 用 扩展 名 确定 ， 如 .arff 为 ARFF 格 
式 ，.csv 为 CSV 格 式 

用 于 确定 阔 值 数据 的 类 别 标签 ， 默 认为 第 一 个 标签 

为 了 节省 内 存 而 关闭 预测 集合 


默认 情况 下 ， 如 果 不 提供 测试 文件 ， 就 会 执行 交叉 验证 ， 这 时 应 首先 将 数据 顺序 进行 
随机 置 乱 。 如 果 要 多 次 重复 交叉 验证 ， 每 次 都 要 将 数据 以 不 同 的 方式 重新 随机 置 乱 ，-s 选 
项 用 于 设置 随机 数 种 子 ， 其 默认 值 为 1。 如 果 数 据 集 很 大 ， 可 能 需要 使 用 -x 选项 来 减少 交 
叉 验 证 的 折 数 (其 默认 值 为 10)， 以 减少 运行 时 间 。 如 果 需 要 使 用 单独 训练 数据 ，-no-cv 选 
项 可 以 用 于 阻止 交叉 验证 ; -v 选项 阻止 输出 训练 数据 的 性 能 统计 信息 。 作 为 交叉 验证 的 一 
种 替代 方法 ， 可 以 使 用 -t 选项 指定 将 数据 分 割 为 训练 集 和 测试 集 ， 再 使 用 -split-percentage 
选项 指定 用 作 新 训练 集 的 百分比 ， 而 剩余 的 数据 将 作为 测试 集 。 当 使 用 -split-percentage 选 
项 指定 训练 集 和 测试 集 分 割 比 例 时 ， 可 以 使 用 -preserve-order 选项 阻止 数据 的 随机 化 ， 即 保 
持原 有 的 数据 顺序 。 

在 探索 者 界面 中 ， 可 以 使 用 代价 敏感 的 评估 。 在 命令 行 界 面 中 也 可 以 获得 同样 的 效 


果 ， 使 用 -m 选项 以 提供 包含 代价 矩阵 的 文件 名 称 。 例 如 ， 下 面 是 一 个 天 气 数据 的 代价 矩阵 ; 

2 2 s# 在 矩阵 中 的 行 数 和 列 数 

0 10g 如 果实 际 类 别 为 yes 但 预测 为 no， 惩 罚 是 10 

1 0 s# 如 果实 际 类 别 为 no 但 预测 为 yes， 惩罚 是 1 
其 中 ， 第 一 行 给 出 代价 矩阵 的 行 和 列 的 数目 ， 也 就 是 说 ， 类 别 取 值 的 数目 ， 下 面 给 出 惩罚 
和 矩阵， 以 “%” 开 始 的 文字 为 注释 ， 可 以 附加 到 任何 行 的 结尾 。 

也 可 以 保存 和 加 载 模型 。 如 果 使 用 -d 选项 提供 输出 文件 的 名 称 ，Weka 保存 由 训练 数 
据 生 成 的 分 类 器 。 为 了 使 用 相同 的 分 类 器 来 评估 一 批 新 的 测试 数据 ， 可 以 使 用 -1 选项 加 载 
保存 后 的 分 类 器 ， 而 不 用 重建 。 如 果 分 类 器 支持 增 量 更 新 ， 可 以 提供 训练 文件 和 输入 文 
件 ，Weka 会 加 载 分 类 器 并 使 用 给 定 的 训练 实例 对 它 进行 更 新 。 可 以 使 用 -force-batch- 
training 选项 强制 使 用 批 处 理 模式 训练 分 类 器 ， 禁 止 使 用 增 量 模式 。 

如 果 只 想 评估 一 个 学 习 方 案 的 表现 ， 可 使 用 -o 选项 以 阻止 输出 方案 模型 。 使 用 -do-not- 
output-per-class-statistics 选项 禁止 输出 每 个 类 别 的 统计 信息 。 使 用 -k 选项 来 计算 信息 理论 
的 学 习 方 案 产 生 的 概率 度量 。 

挖掘 人 员 往 往 希望 知道 学 习 方 案 对 某 个 测试 实例 具体 预测 的 是 哪 一 个 类 别 值 。-p 选项 
可 用 于 打印 每 个 测试 实例 的 数量 、 类 别 值 的 索引 和 实际 值 、 预 测 类 别 值 的 索引 和 预测 值 ， 
如 果 错 误 分 类 了 这 个 类 别 ， 则 显示 “+” 号 ， 并 给 出 预测 类 别 值 的 概率 。 可 以 通过 使 用 
-distribution 选项 和 -p 选项 ， 输 出 对 某 个 实例 所 预测 的 每 个 可 能 类 别 标签 的 概率 。 在 这 种 情 
况 下 ， 将“*” 放 置 在 对 应 于 预测 类 别 值 的 分 布 的 概率 旁 。-p 选项 还 输出 每 个 实例 的 属性 
值 ， 且 必须 紧 跟 所 规定 的 范围 (如 1-2)， 如 果 不 需要 任何 属性 值 则 使 用 0。 也 可 以 输出 训练 
数据 的 累积 边缘 分 布 ， 它 显示 了 边缘 度量 的 分 布 。 可 以 使 用 -no-predictions 选项 关闭 预测 集 
合 ， 这 样 可 以 节省 内 存 开销 。 最 后 ， 还 可 以 输出 分 类 器 的 源码 表示 ， 并 在 分 类 器 支持 产生 
图 形 的 条 件 下 ， 以 图 形 方式 表示 。 


王 注意 :， 新 版 本 的 Weka 已 弃 用 -distribution 和 -p 选项 ， 将 这 两 个 选项 作为 -classifications 
选项 的 参数 。 


使 用 -threshold-file 选项 ， 可 以 将 与 ROC 和 查 准 率 - 查 全 率 曲线 等 性 能 图 表 相 关 的 数据 
发 送 到 文件 。-threshold-label 选项 可 以 指定 用 于 产生 该 数据 的 视 为 正 例 的 类 别 标签 。5.4 节 
将 讨论 如 何在 命令 行 上 使 用 具体 学 习 方 案 相 关 的 特定 选项 ， 这 些 选项 也 可 以 从 XML 文件 
或 使 用 -xml 选项 的 字符 串 进行 设置 。 


5.3.2 ”特定 选项 


表 5.2 所 示 的 是 J48 决策 树 的 特定 选项 。 用 户 可 以 强制 使 用 不 修剪 树 算法 ， 而 不 是 修 
剪 树 算 法 。 也 可 以 阻止 子 树 提 升 ， 从 而 提高 效率 。 可 以 设置 修剪 的 置信 度 阔 值 ， 以 及 在 叶 
节点 允许 的 最 少数 量 的 实例 这 两 个 参数 。 就 像 C4.5 的 标准 修剪 程序 ， 可 以 执行 减少 错误 的 
修剪 。-N 选项 确定 保留 集合 的 大 小 ， 这 是 指 将 数据 集 平分 为 相同 大 小 的 部 分 ， 最 后 那 部 分 
保留 ， 其 默认 值 为 3。 可 以 利用 拉 普 拉 斯 技术 平滑 概率 估计 ， 在 选择 修剪 集 时 设置 对 数据 
随机 排序 的 随机 数 种 子 ， 并 为 将 来 的 可 视 化 保存 实例 信息 。 最 后 ， 使 用 -B 选项 可 对 标 称 型 
属性 建立 二 元 分 义 树 ， 而 不 是 多 元 分 支 分 义 树 。 
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表 5.2 ”weka.classifiers .trees.J48 的 特定 选项 


选 项 功 能 
-U 使 用 不 修剪 树 
-0 不 折 释 树 
-C < 修剪 置信 度 > 设置 修剪 的 置信 度 阔 值 ， 默 认 值 为 0.25 
-M < 实例 的 最 小 数量 > 设置 每 个 叶 节 点 实例 的 最 少数 量 ， 默 认 值 为 2 
-及 使 用 减少 误差 修剪 
-< 折 数 > 设置 减少 误差 修剪 的 折 数 ， 一 折 用 作 修剪 集 ， 默 认 值 为 3 
-B 只 使 用 二 元 分 割 
-S 不 执行 子 树 提升 
工 不 要 清理 已 构建 后 的 树 
-A 拉 普 拉 斯 平滑 预测 概率 
-J 不 使 用 MDL 校正 数值 属性 的 信息 增益 
-Q < 种 子 > 随机 置 乱 数据 的 种 子 ， 默 认 值 为 1 


-doNotMakeSplitPointActualValue 
-output-debug-info 


-do-not-check-capabilities 


-num-decimal-places 


5.4 


不 要 让 分 裂 点 成 为 实际 值 

如 果 设置 ， 分 类 器 运行 在 调试 模式 下 ， 且 可 能 输出 额外 信息 到 
控制 台 

如 果 设 置 ， 在 构建 分 类 器 之 前 不 检查 分 类 器 的 能 力 ， 请 小 心 使 用 
设置 模型 中 输出 数值 的 小 数 点 后 的 位 数 ， 默 认 值 为 2 


过 滤器 和 分 类 器 选项 


从 前 面 章节 知道 ， 命 令 行 最 重要 和 难以 掌握 的 就 是 选项 ， 包 括 常 规 选 项 和 特定 选项 。 
下 面 就 以 常用 的 过 滤器 和 分 类 器 为 例 ， 说 明 其 用 法 。 


5.4.1 过 滤器 选项 


Weka 过 滤器 算法 都 以 Java 类 的 形式 放置 在 weka.filters 包 中 ， 这 些 类 用 于 转换 数据 
集 ， 可 能 的 转换 操作 包括 删除 或 添加 属性 、 对 数据 集 进行 二 次 抽样 、 删 除 样本 等 。 
weka.filters 包 对 数据 预 处 理 提 供 非常 有 用 的 支持 ， 而 数据 预 处 理 是 机 器 学 习 的 重要 步骤。 

全 部 过 滤器 都 提供 -i 选项 以 指定 输入 数据 集 ， 提 供 -o 选项 以 指定 输出 数据 集 。 如 果 没 
有 给 定 这 些 参数 ，Weka 将 从 标准 输入 读 入 ， 写 到 标准 输出 。 每 个 过 滤器 都 可 以 指定 其 他 


参数 ， 如 果 不 知道 有 什么 具体 参数 ， 可 以 像 其 他 Java 类 一 样 通过 -h 选项 得 到 帮助 。 


weka.filters 包 组 织 为 有 监督 和 无 监督 的 过 滤器 ， 二 者 又 再 划分 为 实例 过 滤器 和 属性 过 滤 
器 。 下 面 说 明 这 四 种 过 滤器 的 选项 。 


1. 有 监督 过 滤器 


有 监督 过 滤器 类 都 位 于 weka.filters.supervised 包 下 ， 有 监督 过 滤器 充分 利用 已 知 实例 
的 类 别 信息 进行 学 习 。 数 据 集 的 类 别 属 性 必须 通过 -c 选项 指定 ，Weka 默认 使 用 -c last 指定 


最 后 一 个 属性 为 类 别 属性 。 

1) weka.filters.supervised.attribute 

Discretize 过 滤器 根据 类 别 信息 ， 将 数值 型 属性 离散 化 为 标 称 型 属性 ， 主 要 用 于 只 能 处 
理 标 称 型 数据 的 学 习 方 案 ， 如 weka.classifiers.rules.Prism。 离 散 化 的 另 一 个 用 途 就 是 能 减少 
学 习 时 间 。 

如 下 命令 离散 化 iris.arff 数据 集 : 


java weka.filters.supervised.attribute.Discretize -i data/iris.arff -o iris-— 

nom.arff -c last 

如 下 命令 离散 化 cpu.with.vendor.arff 数据 集 ， 将 第 一 行 (CPU 厂商 ) 作 为 类 别 属性 : 

java weka.filters.supervised.attribute.Discretize -i data/cpu.with.vendor.arff 

-0 cpu-classvendor-nom.arff -c first 

NominalToBinary 过 滤器 将 全 部 标 称 型 属性 编码 为 二 元 (二 值 ) 属 性 ， 它 能 将 数据 集 转 换 
为 纯 数值 的 表示 ， 例 如， 通过 多 维 缩放 的 可 视 化 。 

如 下 命令 将 contact-lenses.arff 数据 集 的 全 部 标 称 型 属性 转换 为 二 元 属性 : 


java weka.filters.supervised.attribute.NominalToBinary -i data/contact- 
lenses.arff -o contact-lenses-bin.arff -c last 


逮 注意 : Weka 中 的 大 多 数 分 类 器 都 在 内 部 使 用 了 转换 的 过 滤器 ， 如 Logistic 和 
SMO， 因 此 用 户 通常 不 需要 明确 指定 这 些 过 滤器 。 但 是 ， 如 果 需 要 大 量 运行 
实验 ， 预 先 实 施 过 滤器 也 许 能 够 提高 运行 效率 。 

2) weka.filters.supervised.instance 
Resample 过 滤器 对 给 定数 据 集 进 行 二 次 分 层 抽样 ， 这 意味 着 抽样 样本 近似 地 保留 了 整 

体 的 类 别 分 布 ， 可 以 通过 -B 选项 指定 类 别 的 均匀 分 布 偏 倚 。 

如 下 命令 对 soybean.arff 数据 集 进 行 二 次 分 层 抽样 ， 使 用 -c 选项 指定 最 后 一 个 属性 为 

类 别 属性 ， 使 用 -Z 选项 指定 输出 数据 集 的 大 小 为 5( 默 认 值 为 100)， 该 数值 为 输入 数据 集 的 

百分比 : 


java weka.filters.supervised.instance.Resample -i data/soybean.arff -o 
soybean-5%.arff -c last -2 5 


如 下 命令 对 soybean.arff 数据 集 进行 二 次 分 层 抽样 ， 使 用 -c 选项 指定 最 后 一 个 属性 为 
类 别 属性 ， 使 用 -Z 选项 指定 输出 数据 集 的 大 小 为 5S， 使 用 -B 选项 指定 类 别 的 均匀 分 布 偏 倚 
为 1: 

java weka.filters.supervised.instance.Resample -i data/soybean.arff -o 

soybean-uniform-5%.arff -c last -2 5 -B1 

StratifiedRemoveFolds 过 滤器 对 给 定数 据 集 创建 分 层 交 叉 验 证 折 。 这 意味 着 ， 默 认 情 
况 下 每 个 折 都 大 致 保持 其 类 别 分 布 。 

如 下 命令 将 soybean.arff 数据 集 分 割 为 分 层 的 训练 集 和 测试 集 ， 后 者 占 25%(1/4) 的 数 
据 。 这 里 的 -N 选项 指定 数据 集 分 割 的 折 数 (默认 值 为 10)， 下 选项 指定 选择 的 折 ( 默 认 值 为 
1)，-V 选项 指定 反 转 选择 : 
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java weka.filters.supervised.instance.SstratifiedRemoveFolds -i 
data/soybean.arff -o soybean-train.arff -c last -N4-F1-V 


java weka.filters.supervised.instance.stratifiedRemoveFolds -i 
data/soybean.arff -o soybean-test.arff -c last -N4 -FE1 


2. 无 监督 过 滤器 

无 监督 过 滤器 类 都 位 于 weka.filters.unsupervised 包 下 ， 无 监督 过 滤器 不 能 指定 类 别 属 
性 ， 如 Resample 过 滤器 的 无 分 层 版 本 。 

1) weka.filters.unsupervised.attribute 

StringToWordVector 过 滤器 将 字符 串 型 属性 转换 为 单词 向 量 ， 即 为 字符 串 内 的 每 个 单 
词 创建 一 个 属性 ， 根 据 单词 是 否 存 在 或 单词 计数 (-C 选项 ) 进 行 编 码 。-W 选项 可 以 用 于 对 
单词 数量 设置 一 个 近似 的 限制 。 当 分 配 一 个 类 别 时 ， 限 制 适用 于 每 个 单独 的 类 别 。 该 过 滤 
器 在 文本 挖掘 领域 非常 有 用 。 

如 下 命令 使 用 StringToWordVector 过 滤器 将 ReutersCorn-train.arff 数据 集 的 字符 串 型 
属性 转换 为 单词 向 量 ， 使 用 -C 选项 对 单词 的 出 现 次 数 进行 计数 : 


java weka.filters.unsupervised.attribute.StringToWordVector -C -i 
data/ReutersCorn-train.arff -o ReutersCorn-train-preprocessed.arff 


Obfuscate 过 滤器 对 数据 集 名 称 、 所 有 的 属性 名 称 和 标 称 型 属性 值 进行 重 命名 ， 这 是 为 
了 在 交换 敏感 数据 集 时 不 会 轻易 暴露 限制 级 的 信息 。 

如 下 命令 使 用 Obfuscate 过 滤器 将 iris.arff 数据 集 加 密 ， 读 者 可 使 用 任意 文本 编辑 器 打 
开 iris-secret.arff 数据 集 ， 验 证 是 否 已 经 无 法 看 懂 数据 集 的 内 容 ， 但 丝毫 不 影响 数据 挖掘 : 

java weka.filters.unsupervised.attribute.Obfuscate -i data/iris.arff -o iris- 

Secret .arff 

Remove 过 滤器 从 一 个 数据 集中 明确 删除 指定 属性 。 

如 下 命令 使 用 Remove 过 滤器 删除 iris.arff 数据 集中 的 属性 。 其 中 ， 第 一 条 命令 删除 数 
据 集中 的 第 一 、 二 个 属性 ， 第 二 条 命令 删除 第 三 至 最 后 的 属性 : 

java weka.filters.unsupervised.attribute.Remove -R 1-2 -i data/iris.arff -o 

iris-simplified.arff 

java weka.filters.unsupervised.attribute.Remove -V -R 3-last -i data/iris.arff 

-oO iris-simplified.arff 


2) weka.filters.unsupervised.instance 

Resample 过 滤器 对 给 定数 据 集 创建 一 个 不 分 层 的 二 次 抽样 ， 即 不 考虑 类 别 信息 的 随机 
抽样 ， 否 则 就 等 效 于 有 监督 二 次 抽样 。 

如 下 命令 对 soybean.arff 数据 集 进 行 二 次 随机 抽样 ， 这 里 不 使 用 -c 选项 指定 类 别 属 
性 ， 使 用 -Z 选项 指定 输出 数据 集 的 大 小 为 5: 


java weka.filters.unsupervised.instance.Resample -i data/soybean.arff -o 
soybean-5%.arff -2Z 5 


RemoveFolds 过 滤器 对 给 定数 据 集 创建 交叉 验证 折 。 由 于 是 无 监督 的 ， 将 不 再 维持 原 


来 的 类 别 分 布 。 

如 下 命令 将 soybean.arff 数据 集 拆 分 为 训练 集 和 测试 集 ， 后 者 占 25%(1/4) 的 数据 。 这 
里 的 -N 选项 指定 数据 集 分 割 的 折 数 (默认 值 为 10)，-F 选项 指定 选择 的 折 ( 默 认 值 为 1)，-V 
选项 指定 反 转 选择 (反选 ):; 

java weka.filters.unsupervised.instance.RemoveFolds -i data/soybean.arff -o 

soybean-train.arff -c last -N4-F1-V 


java weka.filters.unsupervised.instance.RemoveFolds -i data/soybean.arff -o 
soybean-test.arff -c last -N 4 -FE1 


RemoveWithValues 过 滤器 根据 属性 值 过 滤 实 例 。 

如 下 命令 对 soybean.arff 数据 集 的 实例 进行 过 滤 。-V 选项 反 转 选择 ，-C 选项 选择 要 使 
用 的 属性 ， 这 里 是 最 后 一 个 属性 ; -L 选项 指定 在 标 称 型 属性 中 进行 选择 的 标签 索引 范 
围 。 这 里 的 最 后 一 个 属性 的 标签 索引 为 19 的 标签 为 herbicide-injury， 由 于 使 用 了 -V 选项 
反选 ， 因 此 选择 出 来 的 结果 为 最 后 一 个 属性 的 标签 不 是 herbicide-injury 的 全 部 实例 : 

java weka.filters.unsupervised.instance.RemoveWithValues -i data/soybean.arff 

-0 soybean-without herbicide injury.arff -V -C last -L 19 


5.4.2 ”分 类 器 选项 


分 类 器 是 Weka 的 核心 内 容 。 分 类 器 有 很 多 常见 的 选项 ， 其 中 大 部 分 涉及 评估 ， 以 下 
将 专注 于 最 为 重要 的 选项 。 同 样 ， 包 括 分 类 器 的 特定 选项 在 内 的 所 有 其 他 选项 ， 都 可 以 通 
过 -h 选项 获取 帮助 。 

-选项 指定 ARFF 格式 的 训练 文件 。 

-T 选项 指定 ARFF 格式 的 测试 文件 。 如 果 不 指定 本 选项 ， 将 执行 交叉 验证 (默认 为 十 
折 交 叉 验 证 )。 

民选 项 指定 交叉 验证 的 折 数 。 只 有 缺少 -T 选 项 时 ， 才 会 执行 交叉 验证 。 

-c 选项 指定 类 别 属性 ， 属 性 索引 以 1 为 基 。 

-d 选项 指定 训练 后 模型 的 保存 文件 。 每 个 分 类 器 的 模型 具有 不 同 的 二 进 制 格式 ， 因 此 
只 能 用 完全 相同 的 分 类 器 在 兼容 的 数据 集 上 读 回 。 只 保存 在 训练 集 上 的 模型 ， 不 保存 执行 
交叉 验证 产生 的 多 个 模型 。 

-1 选项 载 入 先前 保存 的 模型 ， 通 常用 于 测试 新 的 、 以 前 未 见 过 的 数据 。 在 这 种 情况 
下 ， 需 要 指定 一 个 兼容 的 测试 文件 ， 即 以 相同 的 顺序 排列 的 相同 属性 。 

-p 选项 在 指定 测试 文件 后 才能 使 用 ， 该 参数 显示 所 有 的 测试 实例 的 预测 类 别 ， 以 及 某 
个 属性 (0 表示 没有 )。 

-i 选项 显示 更 为 详细 的 性 能 描述 ， 包 括 查 准 率 、 查 全 率 、 真 阳性 率 和 假 阳 性 率 。 所 有 
这 些 值 也 可 以 从 混淆 矩阵 中 计算 而 得 。 该 选项 在 Weka 新 版 本 中 已 弃 用 ， 默 认 显示 详细 的 
性 能 描述 ， 如 果 不 愿 输出 详细 描述 ， 请 使 用 -do-not-output-per-class-statistics 选项 。 

-do-not-output-per-class-statistics 选项 禁止 输出 每 个 类 别 的 统计 信息 。 

-0 选项 关闭 人 类 可 读 的 模型 描述 信息 的 输出 。 在 使 用 支持 向 量 机 或 NaiveBayes 的 情况 
下 ， 使 用 该 选项 ， 用 户 可 以 对 大 量 的 信息 进行 分 析 和 可 视 化 。 
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例如 ， 如 下 命令 使 用 J48 决策 树 对 weather.nominal.arff 数据 集 进行 分 类 ， 使 用 -t 选项 
指定 训练 文件 : 


Java weka.classifiers.trees.J48 -t data/weather.nominal .arff 


执行 命令 后 的 分 类 结果 如 图 5.9 所 示 。 


Mean rel. region size (0.95 level) 64.2857 于 
Total Wanber of Inarancea 14 


一 Derailed Acciracy By Class =— 


TE Rare FE Rate Freclslon Recall 
rea pac Area Clase 

0.556 0.600 0.625 0.556 
0.633 0.758 


Sea 
0.400 0.444 0.333 0.400 


na 
0.500 。 0.544 。 0.521 0.5o0 


一 conruslon Macrlx 一 


ab <-- classified as 


5.9 分 类 结果 


如 果 使 用 诸如 Stacking 或 ClassificationViaRegression 的 元 分 类 器 ， 也 就 是 分 类 器 中 的 
选项 包含 另 一 个 分 类 器 的 格式 ， 必 须 小 心 不 要 混用 参数 。 例 如 ， 如 下 命令 : 


java weka.classifiers.meta.ClassificationViaRegression -W 
weka.classifiers.functions.LinearRegression -S 1 -t data/iris.arff -x 2 


其 中 ，-W 选项 指定 基 分 类 器 的 全 名 。 但 这 里 的 选项 -S 1 会 抛 出 一 个 例外 ，-S 选项 设置 使 用 的 属 
性 选择 方法 ， 只 对 LinearRegression 分 类 器 有 意义 ， 但 不 能 用 于 ClassificationViaRegression 元 
分 类 器 。 遗 憾 的 是 ，Weka 并 不 知道 在 这 种 情况 下 哪个 选项 该 用 在 哪个 分 类 器 上 。 一 种 解 
决 方案 是 ， 使 用 双 引 号 明确 指定 分 类 器 格式 的 全 部 参数 ， 这 样 ， 原 命令 可 更 改 为 : 


java weka.classifiers.meta.ClassificationViaRegression -W 
"weka.classifiers.functions.LinearRegression -S 1" -t data/iris.arff -x 2 


但 是 ， 这 种 方法 取决 于 顶级 的 分 类 器 如 何 实 现 选项 处 理 ， 并 不 总 是 有 效 。 对 于 
Stacking 元 分 类 器 ， 这 种 方法 工作 得 非常 好 ， 而 对 于 ClassificationViaRegression 却 不 能 工 
作 。 得 到 的 错误 信息 是 无 法 找到 类 “weka.classifiers.functions.LinearRegression -S 1”。 幸 
运 的 是 ， 还 有 另 一 种 方法 可 用 ， 所 有 在 “--” 之 后 的 参数 由 第 一 个 子 分 类 器 处 理 ， 另 一 个 
在 “--” 之 后 的 参数 由 第 二 个 子 分 类 器 处 理 ， 以 此 类 推 。 

这 样 ， 原 来 的 命令 就 更 改 为 如 下 的 正确 形式 : 

java weka.classifiers.meta.ClassificationViaRegression -W 

weka.classifiers.functions.LinearRegression -t data/iris.arff -x 2 -- -S1 


在 某 些 情况 下 ， 需 要 将 这 两 种 方法 混合 起 来 。 例 如 : 


java weka.classifiers.meta.Stacking -B "weka.classifiers.lazy.IBk -K 10" -M 
"weka.classifiers.meta.ClassificationViaRegression -W 
weka.classifiers.functions.LinearRegression —— -S 1" -t data/iris.arff -x 2 


ES 注意 : ”虽然 ClassificationViaRegression 元 分 类 器 可 以 使 用 “--” 参 数 ， 但 Stacking 
元 分 类 器 却 不 能 使 用 该 参数 。 遗 憾 的 是 ， 在 Weka 中 子 分 类 器 的 格式 选项 处 理 
尚未 完全 统一 。 唯 一 的 好 消息 是 ， 这 里 提 到 的 两 种 方法 ， 总 有 一 种 能 够 生效 。 


5.4.3 手把手 教 你 用 


1. 数据 集 实用 工具 

Weka 数据 集 一 般 使 用 ARFF 格式 ， 通 过 调用 weka.core.Instances 类 的 main0) 函 数 ， 可 
以 验证 数据 集 文件 ， 并 得 到 数据 集 的 基本 统计 信息 。 

具体 方法 是 ， 在 命令 行 窗口 输入 如 下 命令 : 


java weka.core.Instances data/weather.numeric.arff 


简单 命令 行 界面 中 会 输出 如 图 5.10 所 示 的 结果 。 输 出 分 为 两 部 分 ， 第 一 部 分 是 数据 集 
的 基本 信息 : 关系 名 称 (Relation Name)、 实 例 数量 (Num Instances) 和 属性 数量 (Num 
Attributes)。 第 二 部 分 是 数据 集中 属性 的 基本 统计 信息 ， 包 括 : 属性 名 称 (Name)、 类 型 
(Type) 、 标 称 型 占 比 (Nom)、 整 型 占 比 (nb 、 实 型 占 比 Real) 、 缺 失 值 数量 及 占 比 
(Missing)、 属 性 值 取 唯一 值 的 数量 及 百分比 (Unique) 和 属性 取 不 同 值 的 数量 (Disb) 。 

weka.core 提供 一 些 有 用 的 例 程 ，converters.CSVSaver 可 以 将 ARFF 格式 或 其 他 格式 的 
数据 集 转换 为 CSV 格式 。 

例如 ， 如 下 命令 可 将 ARFF 格式 的 数据 集 转换 为 CSV 格式 的 数据 集 : 


java weka.core.converters.CSVSaver -i data/weather.numeric.arff -o data.csv 
converters.CSVLoader 可 以 用 来 导入 CSV 格式 的 数据 集 。 另 外 ， 使 用 重 定向 容易 将 其 


他 格式 的 数据 转换 为 ARFF 格式 的 数据 。 
例如 ， 如 下 命令 可 将 CSV 格式 的 数据 集 转换 为 ARFF 格式 的 数据 集 : 


java weka.core.converters .CSVLoader data.csv > data.arff 


2. 使 用 J48 决策 树 分 类 器 
首先 ， 打 开 简单 命令 行 界面 ， 在 单行 命令 行文 本 框 中 输入 如 下 命令 : 
java weka.classifiers.trees.J48 -h 


查看 Weka 给 出 的 帮助 信息 ， 如 图 5.11 所 示 。 


5.10 ”验证 并 输出 数据 集 统计 信息 图 5.11 J48 帮助 信息 
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然后 ， 输 入 如 下 命令 : 


java weka.classifiers.trees.J48 -do-not-output-per-class-statistics ot 
./data/iris.arff 


查看 J48 分 类 器 对 交尾 花 数据 集 的 分 类 准确 度 ， 如 图 5.12 所 示 。 


图 5.12 车 尾 花 数 据 集 的 分 类 准确 度 
姓 注意 ;这 里 的 数据 文件 采用 的 是 相对 路 径 ， 读 者 要 注意 相对 路 径 与 绝对 路 径 的 区 
别 ， 并 使 用 绝对 路 径 再 试 一 次 。 另 外 ， 上 述 命令 使 用 了 -do-not-output-per- 
class-statistics 选项 ， 不 使 用 该 选项 再 试 一 次 ， 确 保 已 了 解 该 选项 的 用 途 。 
现在 ， 输 入 如 下 命令 : 
java weka.classifiers.trees.J48 -split-percentage 66 -t ./data/iris.arff 
这 里 使 用 -split-percentage 选项 设置 训练 集 /测试 集 分 割 的 百分比 ， 设 置 三 分 之 二 的 数据 
用 作 训 练 集 ， 剩 下 的 三 分 之 一 的 数据 用 作 测试 集 ， 运 行 结果 如 图 5.13 所 示 。 


一 Errcr on test split 一 


(correctly Classified Instances 36.0784 # 
Incorrectly Classified Inarances 


TMeasure MC RC 


4.000 1.000 


5.13 ”训练 集 /测试 集 分 割 运行 结果 
如 果 想 修改 修剪 置信 度 参数 和 实例 最 小 数量 参数 ， 可 以 使 用 -C 和 -M 选项 ， 例 如 : 


java weka.classifiers.trees.J48 -C 0.2 -M 3 -split-percentage 66 
-t ./data/iris.arff 


运行 结果 如 图 5.14 所 示 。 


人 .0332 = 
1.3608 二 
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5.14 设置 J48 参数 的 运行 结果 


3. 保存 训练 好 的 分 类 器 

本 示例 演示 如 何 保存 分 类 模型 ， 并 使 用 保存 的 模型 对 新 实例 进行 分 类 。 

本 示例 还 是 使 用 天 气 数据 集 ， 但 分 类 器 改 用 朴素 贝 叶 斯 分 类 器 。 

首先 在 Weka 安装 目录 下 新 建 一 个 output 子 目录 备用 ， 然 后 打开 简单 命令 行 界面 ， 输 
入 如 下 命令 : 


java weka.classifiers.bayes.NaiveBayes -d output/nv.model -t 

data/weather .nominal .arff 

该 命令 使 用 -d 选项 指定 将 训练 后 的 模型 保存 为 nv.model 文件 。 命 令 执 行 完毕 后 ， 可 以 
使 用 资源 管理 器 打开 output 子 目录 ， 查 看 目录 下 新 建 的 模型 文件 。 

在 output 子 目录 下 ， 新 建 一 个 weather.nominal.test.arff 文件 作为 测试 集 ， 编 辑 内 容 如 下 : 


@relation weather.test 


@attribute outlook {sunny, overcast, rainy} 
Q@attribute temperature {hot, mild, cool} 
@attribute humidity {high, normal} 
@attribute windy {TRUE, FALSE} 

Q@attribute play {yes, no} 


@data 
overcast, hot, normal, FALSE, yes 


保存 测试 集 文 件 。 然 后 ， 在 简单 命令 行 界面 中 输入 如 下 命令 : 


java weka.classifiers.bayes.NaiveBayes -1 output/nv.model -p 0 -T 
output/weather.nominal .test .arff 
其 中 ，-! 选项 载 入 先前 保存 的 模型 ，-T 选项 指定 测试 文件 ，-p 选项 显示 所 有 的 测试 实例 的 
预测 类 别 ， 以 及 某 个 属性 (0 表示 没有 )。 
测试 结果 如 图 5.15 所 示 。 可 见 ， 预 测 结果 为 yes， 实 际 结果 也 为 yes， 预测 正确 。 
儿 注意 :如 果 想 知道 -p 选项 的 用 途 ， 可 将 上 述 命令 中 的 -p 0 改 为 -p 1-5， 再 试 一 次 ， 看 
看 有 什么 区 别 。 
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5.15 ”测试 结果 


常常 使 用 -classifications 选项 来 指定 产生 分 类 输出 的 格式 ， 一般 使 用 weka.classifiers. 
evaluation.output.prediction.PlainText 指定 输出 为 文本 格式 ， 如 果 要 使 用 HTML 格式 ， 请 将 
PlainText 换 成 HTML。 

输入 如 下 命令 : 

java weka.classifiers.bayes.NaiveBayes -1 output/nv.model -classifications weka. 

classifiers.evaluation.output .prediction.HIML -T output/weather.nominal.test.arff 

测试 结果 如 图 5.16 所 示 。 使 用 HTML 格式 输出 的 好 处 是 容易 在 浏览 器 中 进行 观察 ， 
可 以 显示 成 表格 等 复杂 的 形式 。 


图 5.16 HTML 格式 的 测试 结果 


前 文 已 经 说 过 ， 新 版 本 Weka 已 经 弃 用 -p 选项 ， 而 使 用 -classifications 选项 蔡 代 。 考 考 
聪明 的 读者 ， 如 何在 -classifications 选项 中 使 用 -p 选项 ? 
答案 如 下 : 


java weka.classifiers.bayes.NaiveBayes -1 output/nv.model -classifications 
"weka.classifiers.evaluation.output.prediction.PlainText -p 1-5" -T 
output/weather.nominal .test .arff 


4. 分 析 分 类 结果 


本 示例 展示 如 何 将 数据 集 分 割 为 训练 集 和 测试 集 ， 然 后 用 训练 集 对 分 类 器 进行 训练 ， 
并 将 训练 好 的 模型 用 于 评估 测试 集 。 

首先 ， 按 照 5.4.1 节 中 “有 监督 过 滤器 ”部 分 所 述 的 方法 ， 使 用 StratifiedRemoveFolds 
过 滤器 将 soybean.arff 数据 集 分 割 为 分 层 的 训练 集 和 测试 集 。 

在 简单 命令 行 界面 中 输入 如 下 命令 : 


java weka.filters.supervised.instance.stratifiedRemoveFolds -i 
data/soybean.arff -o output/soybean-train.arff -c last -N 4 -F 1 -V 


java weka.filters.supervised.instance.stratifiedRemoveFolds -i 

data/soybean.arff -o output/soybean-test.arff -c last -N 4 -F1 

命令 执行 完毕 后 ， 在 output 目录 下 应 该 产生 soybean-train.arff 和 soybean-test.arff 两 个 
文件 ， 前 者 为 训练 集 ， 后 者 为 测试 集 。 

下 面 使 用 朴素 贝 叶 斯 分 类 器 对 训练 集 进 行 训练 ， 将 训练 好 的 模型 用 来 对 测试 集 进行 评 
估 。 命 令 如 下 ， 这 里 的 -K 选项 对 数值 型 属性 指定 使 用 核 密度 评估 器 ， 而 不 是 正 态 分 布 : 


java weka.classifiers.bayes.NaiveBayes -K -t output/soybean-train.arff -T 
output/soybean-test.arff -p 0 


命令 运行 完毕 后 ，Weka 简单 命令 行 界 面 输出 如 下 结果 。 第 一 列 为 实例 序号 (instf);， 第 
二 列 为 实际 值 (actual); 第 三 列 为 预测 值 (predicted); 第 四 列 为 错误 (eror， 如 果 预 测 错误 则 
在 该 行 显示 “+” 号 ); 第 五 列 为 预测 (prediction) 的 置信 和 度 ， 预 测 类 别 的 概率 估计 。 


= 一 Predictions on test data 一 一 


inst# actual predicted error prediction 

1 1:diaporth 1:diaporth 1 
1:diaporth 1:diaporth 四 
1:diaporth 1:diaporth 1 
1:diaporth 1:diaporth 1 
1:diaporth 1:diaporth L 
3:rhizocto 3:rhizocto 1 
3:rhizocto 3:rhizocto 1 
3:rhizocto 3:rhizocto 1 
3:rhizocto 3:rhizocto 1 
10 3:rhizocto 3:rhizocto 1 
11 4:phytopht 4:phytopht | 
12 4:phytopht 4:phytopht 1 


CoA N 


13 4:phytopht 4:phytopht 0.984 
14 4:phytopht 4:phytopht 0.999 
a 13:phyllos + 0.779 
40 Oro a 14:alterna ' 0.64 
5 doa 13:phyllos 和 0.894 
A en 14:alterna 融 0.579 
i 8:brown-sp 得 0.494 
117 12:anthrac 3:rhizocto 各 0.568 
132 15:frog-ey 14:alterna 村 0.993 
135 15:frog-ey 16:diaport 二 0.896 
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136 15:frog-ey 8:brown-sp 过 0.734 
138 15:frog-ey 14:alterna 咒 0.663 
140 15:frog-ey 14:alterna 过 0.868 
170 18:2-4-d-i 1:diaporth + 0.342 


输出 的 结果 分 为 前 后 两 个 部 分 ， 前 一 部 分 的 预测 置信 和 度 很 高 ， 说 明 模型 对 分 类 预测 非 
常 自信 ; 后 一 部 分 都 是 出 错 的 预测 ， 总 体 来 说 预测 置信 度 不 高 ， 也 有 一 个 实例 (第 132 条 ) 
例外 ， 其 置信 度 很 高 (0.993)， 但 是 预测 错误 。 大 多 数 出 错 的 类 别 是 brown-sp 和 frog-ey， 预 
测 为 其 他 类 别 。 在 实际 应 用 中 ， 可 以 设 定 一 个 阔 值 ， 如 果 预 测 置信 度 低 于 该 闪 值 ， 就 显示 
一 些 警示 信息 ， 提 醒 挖 掘 者 本 算法 没有 把 握 做 出 决策 。 

如 果 通 过 -p 选项 选择 一 个 属性 范围 ， 如 -p first-last， 所 选中 的 属性 会 在 括号 中 输出 为 
以 逗号 分 隔 的 值 。 然 而 ， 第 一 列 的 实例 序号 提供 更 安全 的 确定 测试 实例 的 方法 。 


5.5 包 管 理 器 


到 目前 为 止 ， 使 用 “ 包 ” 这 个 词 大 都 是 指 Java 组 织 类 的 概念 。 此 外 ，Weka 中 还 有 另 
一 个 包 的 概念 ， 就 是 将 不 在 主 weka.jar 文件 中 提供 的 附加 功能 捆绑 在 一 起 形成 单独 提供 的 
包 。 一 个 包 由 各 种 jar 文件 、 文 档 、 元 数据 ， 以 及 可 能 的 源 代码 组 成 。Weka 中 有 许多 包 可 
用 ， 这 些 包 以 某 些 形式 增添 了 学 习 方 案 以 及 扩展 了 核心 系统 的 功能 。 许 多 包 由 Weka 团队 
提供 ， 其 他 包 来 自 第 三 方 。 

Weka 自 带 包 管理 的 功能 以 及 在 运行 时 动态 加 载 包 的 机 制 。Weka 的 包 管理 器 分 为 命令 
行 版 本 和 GUI 版 本 ， 其 中 命令 行 版 本 主要 为 没有 命令 行 的 Mac 系统 保留 。GUI 版 本 的 包 
管理 器 已 经 在 第 1 章 讲述 过 ， 下 面 讲述 命令 行 版 本 的 包 管理 器 。 

值得 注意 的 是 ，Windows 下 的 简单 命令 行 界面 并 不 太 支持 包 管 理 器 "， 因 此 最 好 使 用 
包 管理 器 的 GUI 版 本 。 对 于 喜欢 命令 行 的 开发 者 ， 只 能 使 用 还 能 支持 包 管理 器 的 Windows 
命令 行 窗口 ， 因 此 如 下 的 截图 大 都 来 自 Windows 命令 行 窗口 。 


5.5.1 命令 行 包 管理 器 

假设 wekajar 文件 已 经 配置 在 CLASSPATH 环境 变量 中 ， 输 入 如 下 命令 就 可 以 访问 包 
管理 器 : 

java weka.core.WekaPackageManager 

由 于 没有 提供 任何 选项 ，Weka 显示 如 图 5.17 所 示 的 用 法 信息 。 

包 的 信息 (元 数据 ) 存 储 在 托管 Sourceforge 的 Web 服务 器 上 。 对 于 新 安装 的 Weka， 第 
一 次 运行 包 管理 器 时 ， 会 有 一 个 短暂 的 延迟 ， 那 是 因为 系统 要 从 服务 器 下 载 并 存储 元 数据 


@ 参见 http://forums.pentaho.com/archive/index.php/t-90690.html。 


到 本 地 缓存 中 ， 缓 存 机 制 可 以 加 快 浏览 包 信 息 的 过 程 。 用 户 应 该 不 时 更 新 本 地 缓存 的 包 元 
数据 ， 以 便 从 服务 器 上 获取 包 的 最 新 信息 ， 这 可 以 通过 提供 -refresh-cache 选项 刷新 缓存 来 
实现 。 


选项 必须 后 接 下 列 三 个 关键 字 之 一 。 

(1) all: 打印 系统 所 知 的 全 部 软件 包 的 信息 。 

(2) installed: 打印 在 本 地 安装 的 全 部 软件 包 的 信息 。 

(3) available: 打印 没有 安装 的 全 部 软件 包 的 信息 。 

如 下 命令 列 出 本 地 当前 安装 的 全 部 包 : 

java weka.core.WekaPackageManager -list-packages installed 

由 于 本 机 安装 了 LibSVM 包 ， 因 此 应 该 列 出 该 包 的 版 本 号 以 及 简要 说 明 。 运 行 后 的 结 
果 如 图 5.18 所 示 。 


图 5.18 当前 安装 的 包 


-package-info <repository | installed | archive> packageName 选项 给 定 包 名 称 列 出 其 信 
息 。 该 命令 后 跟 三 个 关键 字 之 一 ， 然 后 跟 包 名 称 。 

(1) repository: 从 资源 库 中 打印 给 定名 称 的 包 信息 。 

(2) installed: 打印 指定 名 称 的 包 的 安装 版 本 信息 。 

(3) archive: 打印 存储 在 zip 归档 文件 中 的 包 信 息 。 在 这 种 情况 下 ，archive 关键 字 后 面 
必须 紧 跟 包 zip 归档 文件 的 带路 径 全 名 ， 而 不 能 仅仅 是 包 的 名 称 。 

如 下 命令 从 服务 器 列 出 LibSVM 包 的 信息 : 


java weka.core.WekaPackageManager -package-info repository LibSVM 


得 到 的 信息 如 图 5.19 所 示 。 
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图 5.19 LibSVM 包 的 信息 


-install-package <packageName | packageZip | URL> [version] 选 项 允许 某 个 包 从 如 下 三 个 
位 置 之 一 进行 安装 。 

(1) packageName: 指定 要 安装 的 包 名 称 ， 使 用 存储 在 服务 器 上 描述 包 的 元 数据 来 安装 
包 。 如 果 没有 给 定 版 本 号 ， 则 安装 包 的 最 新 可 用 版 本 。 

(2) packageZip: 提供 一 个 带 全 路 径 的 zip 文件 ， 作 为 Weka 包 的 归档 文件 ， 尝 试 解压 
并 安装 。 

(3) URL: 提供 一 个 以 http:/ 开 头 的 URL， 以 访问 网 络 上 的 zip 文件 ， 作 为 Weka 包 的 
归档 文件 ， 下 载 并 尝试 安装 。 

-uninstall-package packageName 选项 卸载 给 定名 称 的 包 。 当 然 ， 给 定名 称 的 包 必 须 已 
经 安装 ， 否 则 命令 没有 任何 影响 。 
5.5.2 ”运行 安装 的 算法 

前 文 已 经 讲述 了 如 何 运 行 Weka 的 主要 分 发 包 ( 即 包含 在 wekajar 文件 中 的 包 ) 中 的 学 习 
算法 。 但 使 用 包 管 理 器 安装 的 算法 该 如 何 运 行 呢 ?我 们 不 希望 每 次 运行 一 个 特定 的 算法 
时 ， 都 要 将 若干 jar 文件 添加 到 CLASSPATH 中 。 幸 运 的 是 ， 也 不 需要 这 样 麻烦 。Weka 提 


供 一 种 在 运行 时 动态 加 载 已 安装 包 的 机 制 ， 可 以 使 用 Run 命令 运行 给 定名 称 的 算法 ， 命 令 
如 下 : 


java weka.Run 


如 果 未 提供 任何 参数 ，Run 命令 会 输出 如 图 5.20 所 示 的 用 法 信息 。 


am CAWINDOWS\system32\cmd.exe 


图 5.20 Run 用 法 信息 
Run 命令 支持 子 串 匹 配 ， 因 此 可 以 使 用 如 下 命令 运行 某 个 分 类 器 算法 ， 这 里 以 J48 


java weka.Run J48 
如 果 所 提供 的 方案 名 称 能 够 匹配 多 个 算法 ，Weka 会 显示 匹配 列表 ”。 例 如 : 
java weka.Run NaiveBayes 


会 显示 如 图 5.21 所 示 的 匹配 列表 ， 让 用 户 选 择 到 底 想 使 用 哪 一 个 算法 ， 或 者 直接 按 Enter 
键 退出 。 


dowsvsystem32wmde 


图 5.21 匹配 列表 


用 户 可 以 通过 提供 -no-scan 选项 ， 关 闭 扫描 包 和 子 串 匹配 。 这 在 批 处 理 脚本 中 使 用 
Run 命令 时 非常 有 用 。 在 这 种 情况 下 ， 需 要 指定 所 使 用 算法 的 完全 限定 名 称 。 例 如 : 


java weka.Run -no-scan weka.classifiers.bayes.NaiveBayes 


为 了 减少 启动 时 间 ， 也 可 以 通过 指定 -no-load 选项 ， 关 闭 动态 加 载 已 安装 包 。 在 这 种 
情况 下 ， 需 要 在 -classpath 选项 中 明确 包含 打算 使 用 的 算法 包 。 例 如 : 
java -classpath C:/Weka-3- 


7/weka.jar; $USERPROFILES/wekafiles/packages/optics dbscan/optics dbscan.jar 
weka.Run -no-load -no-scan weka.clusterers.DBScan 


课 后 强化 练习 


5.1 请 简要 说 明 简单 命令 行 界面 与 探索 者 、 知 识 流 界面 的 联系 和 区 别 。 

5.2 请问 在 什么 条 件 下 ，Weka 简单 命令 行 会 自动 完成 命令 ? 

5.3 打开 Weka API 文档 ， 查 找 并 阅读 classifyInstance() 方 法 和 distributionForInstance() 
方法 的 说 明 ， 这 两 个 方法 有 何 用 途 ? 

5.4 核心 包 中 有 哪 几 个 重要 的 类 ? 请 尝试 与 关系 数据 库 的 概念 进行 类 比 。 

5.5 ”对 contact-lenses.arff 数据 集 实 施 NominalToBinary 过 滤器 ， 观 察 结果 ， 说 明 该 过 
滤器 是 如 何 进行 转换 的 。 


@ Weka 3.7.13 版 本 的 实际 运行 与 WEKA Manual 文档 第 27 页 叙述 不 符 ， 以 前 的 版 本 没有 问题 ， 估 计 是 
版 本 变更 引起 的 BUG。 
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本 章 介 绍 Weka 的 贝 叶 斯 网 络 、 神 经 网 络 、 文 本 分 类 和 时 间 序 列 分 析 
及 预测 。 其 中 ， 前 两 个 学 习 方 案 有 单独 的 图 形 用 户 界面 ， 第 三 个 学 习 方案 
涉及 包括 中 文 分 词 和 使 用 StringToWordVector 过 滤器 的 预 处 理 ， 最 后 一 个 
学 习 方案 需要 定制 安装 包 管 理 器 并 使 用 附加 的 标签 页 。 这 四 方面 的 内 容 都 
有 一 定 的 难度 和 内 容 上 的 独立 性 ， 因 此 合 为 一 章 。 
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6.1 贝 叶 斯 网 络 


贝 叶 斯 网 络 是 一 种 概率 网 络 ， 是 基于 概率 推理 的 图 形 化 网 络 ， 而 贝 叶 斯 公式 则 是 这 个 
概率 网 络 的 基础 。 贝 叶 斯 网 络 又 称 为 信 度 网 络 (belief networks)， 是 贝 叶 斯 方法 的 扩展 ， 是 
目前 不 确定 知识 表达 和 推理 领域 最 有 效 的 理论 模型 之 一 。 自 1988 年 由 UCLA 的 Judea 
Pear 教授 提出 后 ， 已 经 成 为 近 几 年 来 研究 的 热点 。 贝 叶 斯 网 络 采用 一 个 DAG (Directed 
Acyclic Graph， 有 向 无 环 图 ) 表 示 ， 由 代表 变量 的 节点 和 连接 这 些 节点 的 有 向 边 构 成 。 节 点 
代表 随机 变量 ， 节 点 间 的 有 向 边 代 表 了 节点 间 的 相互 关系 (由 父 节点 指向 其 子 节点 )。 可 将 
从 节点 A 指向 节点 B 的 有 向 边 视 为 A “导致 ” B， 这 可 以 用 作 构 建 图 形 结构 的 指导 。 此 
外 ， 有 向 模型 可 以 对 确定 性 关系 进行 编码 ， 更 容易 学 习 。 贝 叶 斯 网 络 适 用 于 不 确定 性 和 概 
率 性 事件 的 表达 和 分 析 ， 可 以 从 不 完全 、 不 精确 或 不 确定 的 知识 或 信息 中 进行 推理 。 

在 图 结构 中 ， 需 要 指定 模型 参数 。 对 于 有 向 图 ， 必须 对 每 一 个 节点 指定 
CPD(Conditional Probability Distribution， 条 件 概率 分 布 )。 如 果 变 量 是 离散 型 ， 可 以 采用 表 
的 形式 表示 ， 称 为 CPT(Conditional Probability Table， 条 件 概 率 表 )， 列 出 子 节点 与 其 父 节 
点 的 每 一 种 值 的 组 合 所 对 应 的 概率 。 有 父 节点 的 节点 用 条 件 概 率 表示 关系 强度 ， 没 有 父 节 
点 的 节点 则 使 用 先 验 概率 。 


6.1.1 简介 


本 节 首 先 以 一 个 简单 的 例子 来 说 明 什么 是 贝 叶 斯 网 络 ， 然 后 再 说 明 如 何 使 用 贝 叶 斯 网 
络 进行 推理 ， 最 后 介绍 贝 叶 斯 算法 的 Weka 实现 。 


1. 经 典 的 贝 叶 斯 网 络 


图 6.1 所 示 为 一 个 经 典 贝 叶 斯 网 络 ， 已 经 为 很 多 文献 所 引用 。 其 中 ， 四 个 节点 
Cloudy( 多 云 )、Sprinkler( 酒 水 车 )、Rain( 下 雨 ) 和 WetGrass( 草 湿 ) 存 在 一 定 的 因果 关联 ， 如 
“多 云 ” 会 导致 “下 雨 ”。 为 简化 起 见 ， 全 部 节点 都 是 二 元 的 ， 即 只 有 两 个 可 能 的 值 ， 采 
用 T(true) 和 (false) 来 表示 。 

容易 得 出 ， 事 件 “ 草 湿 ”(WW=true) 有 两 个 可 能 的 原因 : 要 么 是 开 酒水 车 (S=true)， 要 么 
是 下 十 (R=true)。 其 关系 强度 显示 在 CPT 中 ， 例 如 ， 在 WetGrass 节点 的 CPT 第 二 行 有 
P(W=true | S=true, R=false)=0.9， 因 此 有 P(W=false | S=true, R=false)=1-0.9=0.1， 因 为 每 一 行 
的 和 必然 为 1。 因 为 节点 Cloudy 没有 父 节 点 ， 其 CPT 仅 表示 其 先 验 概率 。 本 例 中 多 云 的 
概率 为 0.5， 如 果 多 云 ， 就 不 大 会 开 酒水 车 ， 下 雨 的 概率 也 增 大 。 

在 贝 叶 斯 网 络 中 ， 最 简单 的 条 件 独立 关系 可 以 表述 如 下 : 给 定 其 父 节 点 ， 子 节点 独立 
于 其 祖先 节点 ， 其 中 的 祖先 节点 与 父 节 点 的 关系 由 节点 的 固定 拓扑 顺序 决定 。 

图 6.1 中 ， 全 部 节点 的 联合 概率 遵从 概率 的 链 式 法 则 ， 可 表述 为 

PCC. SR W)=P(C) x P(SIC) x P(RIC.S) x P(WIC,S,R) 


@ Judea Pearl 是 美国 国家 工程 院 院士 ， 也 是 AAAI 和 IEEE 的 资深 会 员 ， 曾 获 2011 年 图 灵 奖 。 


P(C=F) P(C=T) 


0.5 0.5 


C | P(S=F) P(S=T) C |P(R=F) P(R=T) 


F 0.5 0.5 F 0.8 0.2 
:3 0.9 0.1 时 0.2 0.8 


SR |P(W=F) PUF=T) 
FF| 10 00 
TF| ol 09 
FT| o%1 09 
TT| 00 099 
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使 用 条 件 独立 关系 ， 可 以 将 上 述 公式 重 写 为 
P(C., S, R, W)=P(C) x P(SIC) x P(RIC) x P(WIS.R) 

可 以 看 到 ， 条 件 独立 关系 使 得 其 能 够 更 加 紧凑 地 表示 联合 概率 。 尽 管 这 里 节省 的 开销 
很 小 ， 但 在 一 般 情 况 下 ， 如 果 有 7 个 二 元 节点 ， 完 整 的 联合 概率 需要 O(27) 的 空间 ， 而 分 
解 形 式 只 需要 0O0-29 的 空间 ， 这 里 的 上 为 一 个 节点 的 最 大 扇 入 (fan-in) 数 。 参 数 越 少 ， 运 算 
的 开销 越 少 ， 学 习 越 轻松 。 

本 示例 的 网 络 结构 和 CPT 都 已 经 确定 ， 因 此 只 需要 进行 推理 即 可 。 但 在 大 部 分 的 情形 
下 ， 很 有 可 能 既 不 知道 网 络 结构 ， 也 不 知道 CPT， 这 就 需要 进行 学 习 。 学 习 贝 叶 斯 网 络 分 
为 两 个 步骤 : 第 一 步 ， 学 习 贝 叶 斯 网 络 结构 ， 第 二 步 ， 学 习 概率 表 。 由 于 贝 叶 斯 网 络 涉及 
很 多 数学 知识 ， 而 本 书 也 不 准备 陷入 大 堆 公式 的 沼泽 中 ， 因 此 只 是 从 应 用 的 角度 对 贝 叶 斯 
网 络 进行 介绍 。 如 果 读 者 想 要 更 多 地 学 习 贝 叶 斯 网 络 的 理论 知识 ， 请 参见 相关 书籍 。 

2. 贝 叶 斯 网 络 推理 

贝 叶 斯 推理 的 主要 目标 是 ， 在 给 定 观察 节点 的 值 的 条 件 下 ， 估 计 隐 藏 节点 的 值 。 如 果 
是 观察 到 贝 叶 斯 模型 的 “ 叶 ”， 并 尝试 推断 导致 这 一 结果 的 隐藏 节点 值 ， 称 为 诊断 
(diagnosis)， 或 称 为 自 底 向 上 的 推理 。 如 果 是 观察 到 贝 叶 斯 模型 的 “ 根 ”， 并 尝试 预测 其 
结果 ， 称 为 预测 ， 或 称 为 自 顶 向 下 的 推理 。 贝 叶 斯 网 络 可 以 采用 这 两 种 方法 。 

例如 ， 对 于 图 6.1 所 示 的 网 络 ， 假 如 我 们 观察 到 “ 草 湿 ”(W=true) 这 一 事实 ， 有 两 个 可 
能 的 原因 : 要 么 是 下 雨 ， 要么 是 酒水 车 。 如 果 要 问 这 两 者 哪个 可 能 性 更 大 ? 我 们 可 以 使 用 
贝 叶 斯 规则 计算 每 一 个 原因 的 后 验 概率 。 贝 叶 斯 规则 规定 : 

PCO13D)PCO) 
P(X1») PO) 
其 中 ,了 为 隐藏 的 节点 ; y 为 所 观察 到 的 证 据 。 按 照 标准 的 做 法 ， 用 大 写字 母 表示 随机 变 
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量 ， 用 小 写字 母 表示 随机 变量 的 取 值 。 如 果 用 语言 来 表示 ， 这 个 公式 变 为 : 
过 “条 件 似 然 x 先 验 概率 
后 验 概率 = 
本 例 中 ， 用 1 代表 tmue， 用 0 代表 false。 若 
PW=1)=5,.,,P(C=¢,S=s,R=r,W =1)=0.6471 
为 归 一 化 常数 ， 等 于 数据 的 概率 ( 似 然 )， 则 有 
P(S=LW=1) 2.,P(C=6,S=LR=r,W=1) 


P(S=1|W =))= = 
Pr = Pr =D 
Ms 
0.6471 
和 
Bi LRU ZR(C=08 SR = 
PW =D) PV =D) 
=0.4581 _ 0 7079 
0.6471 
从 上 述 两 个 公式 的 结果 容易 看 到 : 草 湿 更 有 可 能 的 原因 是 因为 下 雨 ， 而 不 是 因为 酒 
水 车 。 


一 般 情况 下 ， 使 用 贝 叶 斯 规则 计算 后 验 概率 估计 的 计算 复杂 度 较 高 ， 好 在 Weka 本 身 
能 够 帮助 我 们 完成 这 一 工作 。 请 读者 记 住 这 里 得 到 的 后 验 概率 ， 后 文 将 直接 使 用 Weka 的 
贝 叶 斯 网 络 GUI 来 验证 所 得 的 结论 。 


3. 贝 叶 斯 算法 的 Weka 实现 


Weka 实现 的 全 部 贝 叶 斯 算法 都 假定 数据 集 满足 如 下 要 求 。 
(1) 所 有 的 变量 都 是 离散 的 有 限 变 量 。 如 果 数 据 集 有 连续 变量 ， 可 以 使 用 以 下 过 滤器 
对 其 进行 离散 化 : 


weka.filters.unsupervised.attribute.Discretize 


(2) 实例 不 能 有 缺失 值 。 如 果 数 据 集 有 缺失 值 ， 请 使 用 如 下 过 滤器 对 其 进行 填充 : 


weka.filters.unsupervised.attribute.ReplaceMissingValues 


buildClassifier() 方 法 所 执行 的 第 一 步 就 是 检查 数据 集 是 否 满 足 上 述 两 个 假设 。 如 果 不 
符合 要 求 ， 会 自动 过 滤 数 据 集 ， 并 将 警告 写 入 标准 错误 输出 (STDERR)。 如 果 测 试 数据 中 
有 缺失 值 ， 但 训练 数据 中 没有 ， 则 使 用 ReplaceMissingValues 过 滤器 根据 训练 数据 填充 测 

Weka 实现 的 主要 贝 叶 斯 算法 如 下 。 

BayesNet 算法 在 满足 标 称 型 属性 和 没有 缺失 值 两 个 条 件 下 学 习 贝 叶 斯 网 络 。 有 四 类 搜 
索 算法 可 用 于 网 络 结构 学 习 ， 详 见 6.1.4 节 ; 有 四 种 不 同 的 算法 可 用 于 估计 网 络 的 条 件 概 
率 表 ， 详 见 6.1.5 节 。 其 中 ， 全 局 和 局 部 评分 度量 可 以 使 用 K2 或 TAN 算法 ， 或 者 更 为 复 
条 的 怜 山 法 、 模 拟 退 火 、 禁 忌 搜 索 和 遗传 算法 等 。 另 外 ， 可 以 使 用 AD-trees 提高 搜索 速 
度 。 条 件 独立 测试 有 两 种 学 习 网 络 结构 的 算法 ， 还 可 以 从 XML 文件 中 加 载 网 络 结构 ， 称 


为 固定 结构 学 习 。BayesNet 的 特色 是 支持 网 络 结构 的 可 视 化 ， 详 见 下 节 。 

NaiveBayes 算法 实现 了 朴素 贝 叶 斯 分 类 器 算法 ， 它 假设 属性 之 间 相 互 独立 。 
NaiveBayes 可 以 使 用 核 密度 估计 器 ， 能 够 在 数值 型 属性 不 满足 正 态 分 布 假设 的 情形 下 提高 
性 能 。 它 还 能 使 用 有 监督 的 离散 化 过 滤器 来 处 理 数 值 型 属性 。NaiveBayesMultinomial 算法 
构建 并 使 用 多 项 式 朴素 贝 叶 斯 分 类 器 类 ， 它 仅 能 处 理 连 续 数值 类 型 的 属性 ， 以 及 标 称 型 的 
类 别 属性 。NaiveBayesMultinomialText 算法 使 用 处 理 文本 数据 的 多 项 式 朴素 贝 叶 斯 分 类 
器 ， 它 能 直接 处 理 字 符 串 型 属性 ， 也 能 接受 其 他 类 型 的 输入 属性 ， 但 在 训练 和 分 类 时 忽略 
这 些 属性 。NaiveBayesMultinomialUpdateable 算法 构建 并 使 用 多 项 式 朴 素 贝 叶 斯 分 类 器 
类 。NaiveBayesUpdateable 算法 使 用 估算 器 类 的 朴素 贝 叶 斯 分 类 器 类 ， 是 NaiveBayes 的 可 
更 新 版 本 。 


6.1.2” 贝 叶 斯 网 络 编辑 器 


贝 叶 斯 网 络 编辑 器 是 一 个 单独 的 应 用 程序 ， 启 动 该 编辑 器 的 方式 有 两 种 。 第 一 种 方式 
是 在 Weka GUI 选择 器 窗口 中 ， 选 择 Tools | Bayes net editor 菜单 项 ， 第 二 种 方式 需要 通过 
命令 行进 入 Weka 安装 目录 ， 在 命令 行 中 输入 如 下 命令 : 


java -classpath weka.jar weka.classifiers.bayes.net .GUI 


再 按 Enter 键 。 启 动 后 的 贝 叶 斯 网 络 编辑 器 如 图 6.2 所 示 。 


Ble Ed Icols Yiow Holp 
玉民 站 固 图 HX 太吉 


图 6.2 贝 叶 斯 网 络 编辑 器 


1. 贝 叶 斯 网 络 编辑 器 的 特性 


贝 叶 斯 网 络 编辑 器 是 一 个 单独 的 应 用 程序 ， 具 有 如 下 特性 。 

(1) 完全 用 手工 方式 编辑 贝 叶 斯 网 络 ， 具 有 无 限制 的 undo/redo( 撤 销 / 重 做 ) 栈 ， 支 持 剪 
切 、 复 制 和 粘贴 ， 也 支持 布局 。 

(2) 使 用 Weka 学 习 算 法 ， 从 数据 中 学 习 贝 叶 斯 网 络 。 

(3) 使 用 Weka 学 习 算 法 ， 手 工 编辑 结构 并 学 习 条 件 概 率 表 (CPT) 参 数 。 

(4) 由 贝 叶 斯 网 络 生成 数据 集 。 

(5) 以 交互 方式 改变 节点 值 ， 使 用 联合 树 (Junction Tree，JT) 算 法 通过 网 络 进行 证 据 
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推理 。 
(6) 在 联合 树 中 查看 团 (Cliques)。 
(7) 为 多 数 常见 操作 提供 快捷 键 支持 。 


2. 基本 编辑 方法 


1) 移动 节点 

单 击 节点 并 拖 动 节点 到 所 希望 的 位 置 。 

2) 选择 一 组 节点 

在 图 形 面板 中 拖 动 鼠标 ， 可 以 看 到 形成 一 个 矩形 ， 释 放 鼠 标 左 键 时 ， 会 选中 矩形 框 内 
的 所 有 节点 。 判 断 节点 是 否 选中 的 方法 是 ， 选 中 的 节点 四 周 有 黑 色 小 方块 。 

可 将 上 述 拖 动 鼠标 形成 矩形 框 的 方法 称 为 画 矩 形 框 ， 这 种 方法 可 以 和 Shift 键 或 Ctrl 
键 联 用 ， 以 扩展 选择 范围 。 例 如 ， 可 以 通过 按 住 Shift 键 并 画 和 矩 形 框 的 方式 来 选择 男 一 组 
节点 ， 这 样 可 以 扩展 选择 的 范围 。 可 以 通过 按 住 Ctrl 键 并 画 矩 形 框 的 方式 来 切换 是 否 选中 
节点 ， 此 时 矩形 框 中 所 有 的 选中 节点 由 选中 切换 为 没有 选中 ， 而 没有 选中 的 节点 切换 为 
选中 。 

Shift 键 或 Ctrl 键 也 可 以 和 单 击 节点 联 用 ， 以 选择 或 反选 多 个 节点 。 

可 以 通过 按 住 鼠标 左 键 并 将 一 组 选 定 的 节点 拖 动 到 所 希望 的 位 置 上 ， 来 实现 成 组 节点 
的 移动 。 


3. 菜单 、 工 具 栏 、 状 态 栏 


1) File( 文 件 ) 菜 单 

如 图 6.3 所 示 ，File 菜单 中 包含 的 菜单 项 有 New( 新 建 )、Load( 加 载 )、Save( 保 存 )、 
Save As( 男 存 为 )、Print( 打 印 )、Export( 导 出 ) 和 Exit( 退 出 )， 这 些 菜单 项 的 功能 显而易见 ， 
不 用 多 说 。 贝 叶 斯 网 络 编辑 器 使 用 的 图 形 文件 格式 是 XML BIF(Bayesian Network 
Interchange Format， 贝 叶 斯 网 络 可 交换 格式 )。 

贝 叶 斯 网 络 编辑 器 支持 加 载 (Load) 如 下 两 种 文件 格式 。 

(1) XML BIF 文件 格式 。 贝 叶 斯 网 络 可 以 通过 文件 中 的 信息 进行 重建 。 由 于 不 会 存储 
节点 宽度 信息 ， 因 此 节点 以 默认 宽度 显示 。 通 过 选择 Tools | Layout 菜单 命令 对 图 重新 布 
局 ， 可 以 改变 节点 宽度 。 

(2) Weka ARFF 数据 文件 格式 。 当 选择 ARFF 文件 时 ， 会 创建 一 个 新 的 空 的 贝 叶 斯 网 
络 ， 其 节点 为 每 个 ARFF 文件 中 的 属性 。 可 以 使 用 weka filters.supervised.attribute.Discretize 
过 滤器 对 连续 变量 离散 化 ， 还 可 以 指定 网 络 结构 ， 并 且 通 过 选择 Tools | Leam CPT 菜单 项 
来 学 习 CPT。 

Export( 导 出 ) 菜 单项 可 用 于 将 图 形 面板 中 的 图 形 写 到 图 像 文 件 中 ， 目 前 支持 BMP、 
JPG、PNG 和 EPS 格式 。 在 图 形 面板 中 ， 在 按 住 Alt 键 和 Shift 键 的 同时 单 击 ， 也 可 以 实现 
本 操作 。 

2) Edit( 编 辑 ) 菜 单 

Edit 菜单 如 图 6.4 所 示 。 

Weka 支持 无 限制 的 undo/redo( 撤 销 / 重 做 ) 操 作 。 贝 叶 斯 网 络 的 大 多 数 编辑 操作 都 是 可 
以 撤销 的 ， 唯 一 例外 的 是 学 习 网 络 和 学 习 CPT， 这 两 个 操作 不 可 撤销 。 


Weka 支持 CuVCopy/Paste( 剪 切 /复制 /粘贴 ) 操 作 。 当 选择 一 组 节点 后 ， 可 以 通过 剪 切 或 
复制 操作 将 其 放置 在 剪贴 板 里 ， 再 通过 粘贴 操作 添加 节点 。 这 里 的 剪贴 板 仅 供 内 部 使 用 ， 
所 以 无 法 与 其 他 应 用 程序 进行 交互 。 新 节点 的 名 称 为 原来 节点 名 称 前 加 上 Copy of 字符 
串 ， 如 果 有 必要 ， 还 会 加 上 编号 以 确保 名 称 的 唯一 性 。 除 复制 节点 外 ， 还 复制 节点 间 的 连 
接 关 系 ， 但 只 复制 与 父 节点 的 连接 ， 而 不 复制 与 子 节点 的 连接 。 
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6.3 File 菜单 图 6.4 Edit 菜单 


选择 Add Node( 添 加 节点 ) 菜 单项 ， 将 显示 Add node 对 话 框 ， 人 允许 指定 新 节点 的 名 
称 ， 以 及 新 节点 的 重 数 (Cardinality)， 重 数 指 该 节点 有 多 少 个 值 ， 如 图 6.5 所 示 。 节 点 的 值 
赋予 名 称 Valuel、Value2 等 ， 这 些 值 可 以 重 命名 ， 方 法 是 在 图 形 面 板 中 右 击 该 节点 并 选择 
Rename Value( 重 命名 值 ) 菜 单项 。 另 一 种 添加 节点 的 方法 是 复制 并 粘贴 那些 节点 值 已 经 正 
确 命名 的 节点 并 重新 命名 。 

选择 Add Arc( 添 加 连 线 ) 菜 单项 ， 会 弹出 Nodes 对 话 框 ， 要 求 先 选择 一 个 子 节点 ， 如 
图 6.6 所 示 。 


@ Select child node 
ls 
确定 取消 


图 6.5 Add node 对 话 框 6.6 选择 子 节点 


当选 择 好 子 节点 之 后 ， 单 击 “ 确 定 ”按钮 ，Weka 会 要 求 再 选择 一 个 父 节 点 ， 如 图 6.7 
所 示 。 选 择 父 节点 的 下 拉 列 表 框 中 不 列 出 子 节点 的 后 代 节点 、 子 节点 的 父 节 点 以 及 子 节点 
本 身 ， 因 为 这 样 将 导致 形成 一 个 环 ( 记 住 贝 叶 斯 网 络 只 是 有 向 无 环 图 )， 或 者 在 网 络 中 已 有 
一 条 连 线 的 情况 下 再 添 一 条 多 余 的 连 线 ， 所 以 这 些 节点 不 能 选 定 作为 父 节点 。 

选择 Delete Arc( 删 除 连 线 ) 菜 单项 ， 会 弹出 Arcs 对 话 框 ， 下 拉 列 表 框 中 显示 可 以 删除 
的 所 有 连 线 ， 如 图 6.8 所 示 。 

只 有 当 一 组 中 至 少 选中 两 个 节点 时 ，Edit 菜单 底部 的 八 个 菜单 项 才 会 激活 。 

(1) Align Left/Right/Top/Bottom( 向 左 / 右 /上 /下 对 齐 ) 菜 单项 : 移动 选中 的 节点 ， 使 得 所 


酒 同 注 下 eM 机 9 小 合 IE 


@« 


@« 


数据 挖 所 与 机 器 学 习 


有 节点 分 别 向 左 、 向 右 、 向 上 或 向 下 进行 对 齐 。 

(2) Center Horizontal/Vertical( 向 水 平 /垂直 中 线 对 齐 ) 菜 单项 移动 选中 的 节点 到 最 左边 
和 最 右边 形成 的 中 线 上 ， 或 到 最 上 边 和 最 下 边 形成 的 中 线 上 。 

(3) Space Horizontal/Vertical( 水 平 /垂直 间隔 均匀 ) 菜 单项 : 使 选中 的 节点 从 最 左边 到 最 
右边 (或 从 最 上 边 到 最 下 边 ) 间 隔 均匀 地 分 布 。 选 择 节点 的 顺序 影响 节点 最 终 移 动 到 的 
位 置 。 


图 6.7 选择 父 节点 图 6.8 删除 连 线 


3) Tools( 工 具 ) 菜 单 

Tools 菜单 如 图 6.9 所 示 。 

选择 Generate Network( 生 成 网 络 ) 菜 单项 ， 可 以 产生 一 个 完全 随机 的 贝 叶 斯 网 络 。 它 会 
弹出 一 个 对 话 框 ， 以 指定 节点 数目 (Nr of nods)、 连 线 数目 (Nr of arcs)、 重 数 (Cardinality) 以 
及 生成 网 络 的 随机 种 子 (Random seed)， 如 图 6.10 所 示 。 


Fle Edit [5 View Help 
Generate Network Curl+N 


Generate Data Cyl+D 


Set Data Cerl+A 
Learn Network Cerl+L I of nodea 10 
Learn CPT I of ares [15 
EE i Cardinality 2 
Sh Random seed123 
ER Generate letrork cancel | 
图 6.9 Tools 菜单 图 6.10 ”生成 随机 网 络 


Generate Data( 生 成 数据 ) 菜 单项 用 于 为 编辑 器 中 的 贝 
叶 斯 网 络 生成 数据 集 。 选 择 该 菜单 项 ， 会 弹出 一 个 如 
图 6.11 所 示 的 对 话 框 ， 以 指定 产生 的 实例 数 、 随 机 数 种 
子 ， 以 及 要 保存 数据 集 的 文件 ， 其 文件 格式 为 ARFF。 如 
果 没 有 设置 输出 文件 (该 字段 为 空 )， 则 只 是 设置 内 部 数据 
集 而 不 写 文件 。 

Set Data( 设 置 数据 ) 菜 单项 用 于 设置 当前 数据 集 ， 从 这 
些 数 据 集 可 以 学 习 一 个 新 的 贝 叶 斯 网 络 ， 可 以 估计 网 络 的 
CPT 参数 。 选 择 该 菜单 项 ， 会 弹出 Set Data File 对 话 框 以 选择 包含 数据 的 ARFF 文件 ， 如 
6.12 所 示 。 

Learm Network 和 Leam CPT 菜单 项 只 有 在 指定 数据 集 后 才 会 激活 ， 指 定数 据 集 有 以 下 
三 种 方式 : 第 一 种 ， 选 择 Tools | Set Data 菜单 项 ， 第 二 种 ， 选 择 Tools | Generate Data 菜单 
项 ， 第 三 种 ， 选 择 File | Load 菜单 项 ， 打 开 ARFF 文件 。 


6.11 生成 随机 数据 


| i 有 os 他 二 


6.12 Set Data File 对 话 框 


Leam Network( 学 习 网 络 ) 菜 单项 用 于 从 数据 集 学 习 整 个 贝 叶 斯 网 络 。 在 如 图 6.13 所 示 
的 对 话 框 中 单 击 Options( 选 项 ) 按 钮 ， 可 以 选择 Weka 可 用 的 结构 学 习 算 法 。 

选择 Leam CPT( 学 习 CPT) 菜 单项 ， 不 改变 贝 叶 斯 网 络 的 结构 ， 只 改变 条 件 概 率 表 。 学 
习 网 络 和 学 习 CPT 都 清除 了 Undo 栈 ， 因 此 操作 不 可 撤销 。 

Layout( 布 局 ) 菜 单项 用 于 在 网 络 上 运行 图 的 布局 算法 ， 并 试图 使 图 形 更 具 可 读 性 。 如 
图 6.14 所 示 ， 可 以 选中 Custom Node Size( 自 定义 节点 大 小 ) 复 选 框 指定 节点 的 宽 和 高 ， 或 
者 ， 取 消 选中 该 复 选 框 ， 由 算法 根据 标签 大 小 自行 计算 。 


6.13 Learn Bayesian Network 对 话 框 6.14 ”设置 图 布局 选项 


Show Margins( 显 示 边 缘 ) 菜 单项 用 于 显示 边缘 分 布 ， 这 些 计算 使 用 联合 树 算法 。 节 点 
的 边缘 概率 显示 为 节点 旁 的 绿色 文本 。 可 以 设置 节点 的 值 ， 操 作 步 骤 为 : 右 击 节点 ， 在 弹 
出 的 快捷 菜单 中 选择 Set evidence( 设 置 证 据 ) 菜 单项 ， 然 后 再 选择 一 个 值 。 设 置 后 的 节点 旁 
的 文本 颜色 由 绿色 变 为 红色 ， 以 表示 为 节点 设置 了 证 据 ， 如 图 6.15 所 示 。 边 缘 概 率 可 能 会 
发 生 合 入 误差 。 


图 6.15 设置 证 据 后 的 网 络 
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Show Cliques( 显 示 团 ) 菜 单项 用 于 使 用 联合 树 算法 显示 团 ， 团 可 视 化 为 采用 彩色 无 向 
边 ， 如 图 6.16 所 示 。 边 缘 和 团 都 可 以 在 同一 时 间 显 示 ， 只 是 会 使 网 络 图 形 更 加 拥挤 。 


File Edit Tools View Help 


6.16 ”显示 团 后 的 网 络 


4) View( 视 图 ) 菜 单 

View 菜单 可 以 放大 和 缩小 图 形 面 板 ， 还 可 以 隐藏 或 显示 状态 栏 和 工具 栏 ， 如 图 6.17 
所 示 。 

5) Help( 帮 助 ) 菜 单 

Help 菜单 下 有 两 个 菜单 项 ， 即 Help( 帮 助 ) 和 About( 关 于 )， 如 图 6.18 所 示 。 选 择 后 会 
弹出 显示 一 些 基本 帮助 信息 的 对 话 框 。 


File Edi Tools Help 


@ zoomin 
| 了 zoomout File Edit Tools View (Help)] 
View toolbar D Help 
View statusbar About 
6.17 View 菜 单 图 6.18 Help 菜单 


6) 工具 栏 

工具 栏 能 让 用 户 快捷 地 使 用 很 多 功能 ， 如 图 6.19 所 示 。 只 需 将 鼠标 悬 停 在 工具 栏 按钮 
上 ， 弹 出 的 提示 文本 会 告诉 用 户 该 按钮 的 功能 。 选 择 View | View toolbar( 查 看 工具 栏 ) 菜 单 
项 ， 可 以 显示 或 隐藏 工具 栏 。 


口 回 芒 多 中转 听 全 | 民 培 开拓 国 图 MH 和 于 QiomQ 匡 


图 6.19 工具 栏 
7) 状态 栏 
贝 叶 斯 网 络 编辑 器 底部 有 一 个 显示 信息 的 状态 栏 。 当 执行 undo/redo( 撤 销 / 重 做 ) 操 作 
时 ， 如 果 无 法 看 到 影响 的 效果 ， 如 CPT 的 编辑 操作 ， 状 态 栏 会 提供 一 些 帮助 。 选 择 
View | View statusbar( 查 看 状态 栏 ) 菜 单项 ， 可 以 显示 或 隐藏 状态 栏 。 
4. 右键 快捷 菜单 


在 图 形 面板 的 节点 外 右 击 ， 会 弹出 如 图 6.20 所 示 的 快捷 菜单 。 其 中 ，Add node( 添 加 
节点 ) 菜 单项 用 于 在 单 击 位 置 添加 一 个 节点 ;Add parent( 添 加 父 节点 ) 菜 单项 用 于 添加 所 选 


中 的 所 有 节点 的 父 节 点 ， 如 果 没 有 选中 节点 ， 或 没有 可 以 添加 的 父 节 点 ， 会 禁用 该 菜单 项 。 

在 节点 上 右 击 ， 也 会 弹出 一 个 快捷 菜单 。 其 中 ，Set evidence( 设 置 证 据 ) 菜 单项 只 有 在 
使 用 Tools | Show margins 菜单 项 显示 边缘 概率 后 才 可 用 ， 并 显示 一 个 值 的 列表 ， 可 以 为 选 
中 的 节点 设置 证 据 ， 如 图 6.21 所 示 。 选 择 Clear( 清 除 ) 菜 单项 ， 将 删除 该 节点 的 值 ， 并 根据 
CPT 计算 边缘 概率 。 


Rename 
Delete node 
Edit CPT Clear 


Add parent ， 
Delete parent » 


Add node Delete child » 


Add parent » sepallength Add value 
sepalwidth Rename value » 
petallength Delete value » 


6.20 ”快捷 菜单 6.21 Set evidence 菜单 


节点 可 以 重新 命名 。 在 节点 上 右 击 ， 然 后 在 弹出 的 快捷 菜单 中 选择 Rename( 重 命名 ) 菜 
单项 ， 会 弹出 如 图 6.22 所 示 的 对 话 框 ， 输 入 新 的 节点 名 称 即 可 。 

通过 选中 一 个 节点 ， 右 击 并 在 快捷 菜单 中 选择 Edit CPT( 编 辑 CPT) 菜 单项 ， 可 以 手动 
编辑 节点 的 CPT。CPT 显示 为 如 图 6.23 所 示 的 对 话 框 。 当 编辑 一 个 值 时 ， 该 表 其 余部 分 的 
值 会 同步 更 新 ， 以 确保 每 行 的 概率 之 和 为 1。CPT 会 首先 尝试 调整 最 后 一 列 ， 然 后 再 依次 
向 前 调整 。 单 击 Randomize( 随 机 化 ) 按 钮 ， 可 以 将 随机 生成 的 分 布 填充 整个 表 。 


slass “Cinf-2.95 


了 
Iris-setosa 0.049| 
0.67| 


“(2.95-3.35]” “(3.35-inf)” 


Iriswginica — 0.417| 


图 6.22 节点 重 命名 图 6.23 编辑 CPT 
快捷 菜单 会 显示 可 以 添加 为 选中 节点 的 父 节 点 列表 。 通 过 复制 新 的 父 节点 的 每 个 值 ， 
来 更 新 节点 的 CPT， 如 图 6.24 所 示 。 
快捷 菜单 会 显示 选中 节点 可 以 删除 的 父 节点 列表 ， 如 图 6.25 所 示 ， 节 点 的 CPT 只 保 
留 父 节点 第 一 个 值 的 条 件 概率 。 


se sl Set evid 
Set evidence 上 
Re Rename 
ename 
Edit CpT Edit CPT 
Add parent 上 sepallength Add parent 上 
Delete parent 1 petallength Delete parent 1 dla: 
Delete chld 1 petalwidth Delete child » 
Add value Add value 
Rename value » Rename value » 
Deletevalue » Delete value » 
图 6.24 添加 父 节点 图 6.25 删除 父 节点 
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快捷 菜单 会 显示 选中 节点 可 以 删除 的 子 节点 列表 ， 如 图 6.26 所 示 ， 子 节点 的 CPT 只 


保留 父 节点 第 一 个 值 的 条 件 概率 。 


从 快捷 菜单 中 选择 Add value( 添 加 值 ) 菜 单项 ， 会 弹出 如 图 6.27 所 示 的 对 话 框 ， 可 以 指 
定 节点 的 新 值 名 称 。 该 节点 的 概率 分 布 赋 为 零 值 ， 子 节点 的 CPT 更 新 为 复制 新 值 的 条 件 概 


Setevidence » 

Rename 

Delete node 

Edit CPT 

Add parent » 

Delete parent » 

Delete child 1。 sepallength 
Add value pe 

en 
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6.26 ”删除 子 节点 


图 6.27 添加 值 


从 快捷 菜单 中 选择 Rename value( 重 命名 值 ) 菜 单项 ， 会 显示 选中 节点 可 以 重 命名 的 值 


列表 ， 如 图 6.28 所 示 。 


在 图 6.28 中 选择 一 个 值 会 弹出 一 个 对 话 框 ， 用 于 指定 新 的 名 称 ， 如 图 6.29 所 示 。 


Set evidence » 


Rename 
Delete node 
Edit CpT 


Addparent » 


Delete parent » 
Delete child » 

Add value 全 New name for value "(1.75-inf)' 
Rename value 1 ‘(inf-0.8] hit 

Deletevalue 1 "08-175] 


"(175-inf)’ 


6.28 重 命 名 值 


选择 快捷 菜单 中 的 Delete value( 删 除 值 ) 菜 单项 ， 会 显示 选中 
节点 可 以 删除 的 值 列表 ， 如 图 6.30 所 示 。 当 节点 有 两 个 以 上 的 
值 时 ( 单 值 节点 没有 什么 意义 )， 该 菜单 项 才 可 用 。 删 除 值 会 自动 
更 新 节点 的 CPT， 以 确保 CPT 之 和 为 1。 同 样 ， 通 过 删除 该 值 
的 条 件 分 布 ， 更 新 子 节点 的 CPT。 


5. CPT 学 习 


贝 叶 斯 网 络 类 可 以 将 连续 变量 离散 化 ， 离 散 化 算法 根据 数据 
集 信息 选择 它 的 值 。 然 而 ， 这 些 值 只 是 临时 存放 在 内 存 中 ， 并 不 
持久 化 。 因 此 ， 使 用 File | Load 菜单 项 读 取 连续 变量 的 ARFF 文 
件 ， 人 允许 指定 网 络 ， 然 后 从 数据 中 学 习 CPT， 因 为 其 离散 范围 
已 知 。 但 是 ， 如 果 打开 一 个 ARFF 文件 ， 指 定 一 个 结构 ， 然 后 关 


6.29 重 命名 


Set evidence » 


Rename 
Delete node 
Edit CPT 

Add parent » 
Delete parent » 


Delete child » 


Add value 
Rename value » 


Delete value | Cinf-08] 


"0.8-175] 
"(1L75-inf” 


6.30 ”删除 值 


闭 应 用 程序 ， 重 新 打开 并 试图 从 另 一 个 包含 连续 变量 的 文件 中 学 习 网 络 可 能 无 法 得 到 期 望 


jp 


的 结果 ， 因 为 重新 应 用 离散 化 算法 可 能 找到 新 的 边界 ， 这 样 可 能 产生 意外 的 结果 。 

在 包含 比 网 络 节点 更 多 属性 的 数据 集中 进行 学 习 是 没有 问题 的 ，Weka 将 忽略 额外 的 
属性 。 

在 不 同属 性 顺序 的 数据 集中 进行 学 习 也 是 没有 问题 的 ， 属 性 与 节点 之 间 只 是 根据 名 称 
进行 匹配 。 然 而 ， 属 性 值 与 节点 值 之 间 是 根据 值 的 顺序 进行 匹配 的 。 

数据 集中 的 属性 应 该 与 网 络 中 的 相应 节点 有 相同 数目 的 值 。 


6.1.3 ”在 探索 者 界面 中 使 用 贝 叶 斯 网 络 


在 探索 者 界面 的 Classify 标签 页 中 ， 单 击 Choose 按钮 ， 在 weka.classifiers.bayes 包 下 
找到 BayesNet 分 类 器 ， 如 图 6.31 所 示 。 
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6.31 BayesNet 分 类 器 


BayesNet 分 类 器 选项 如 图 6.32 所 示 。 其 中 ，BIFFile 选项 用 于 指定 以 BIF 格式 存储 的 
贝 叶 斯 网 络 。 在 学 习 贝 叶 斯 网 络 之 后 ， 调 用 toString() 方 法 ， 将 学 习 到 的 网 络 与 文件 中 的 网 
络 相 比 较 ， 打 印 出 额外 的 统计 数据 ， 如 多 出 的 和 缺少 的 连 线 。searchAlgorithm 选项 用 于 选 
择 网 络 结构 的 学 习 算 法 ， 并 指定 其 选项 。estimator 选项 用 于 选择 估计 条 件 概率 分 布 所 使 用 
的 方法 。 当 将 useADTree 选项 设置 为 True 时， 使 用 摩尔 (Moore)ADTree 算法 计算 代价 。 因 
为 Weka 认为 该 算法 在 小 的 数据 集 上 并 没有 什么 改进 ， 于 是 useADTree 选项 默认 为 False。 


6.32 ”BayesNet 分 类 器 选项 


Ess 注意 : ”本 ADTree 算法 与 weka.classifiers.tree.ADTree 里 的 ADTree 分 类 算法 不 同 ， 
前 者 为 增加 运算 速度 的 数据 结构 ， 后 者 为 分 类 算法 。 其 他 选项 的 含义 可 参见 
附录 B。 
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一 一 WEKA 应 用 


贝 叶 斯 网 络 的 学 习 算 法 被 分 为 两 个 阶段 : 首先 学 习 网 络 结构 ， 然 后 学 习 条 件 概率 表 。 
学 习 网 络 结构 的 算法 很 多 ， 单 击 searchAlgorithm 选项 后 的 Choose 按钮 就 可 以 大 致 了 解 ， 
下 面 分 别 介绍 这 些 学 习 算法 。 


6.1.4 ”结构 学 习 


贝 叶 斯 网 络 结构 学 习 有 多 种 不 同 的 方式 ，Weka 将 结构 学 习 划 分 为 如 下 四 种 类 型 。 

第 一 类 ， 局 部 评分 度量 (local score metrics)。 可 以 把 学 习 网 络 结构 看 成 一 个 给 定 训练 数 
据 ， 使 网 络 结构 质量 度量 最 大 化 的 优化 问题 。 质 量度 量 可 以 根据 贝 叶 斯 方法 、 最 小 描述 长 
度 、 信 息 和 其 他 标准 来 制定 。 这 些 度量 的 实用 特性 是 ， 整 个 网 络 的 分 数 可 以 分 解 为 各 个 节 
点 的 分 数 的 总 和 (或 乘积 )。 这 使 得 整个 网 络 的 分 数 可 以 用 局 部 分 数 表 示 ， 因 此 ， 可 用 局 部 
搜索 方法 。 

第 二 类 ， 条 件 独立 测试 (conditional independence tests)。 这 类 方法 主要 源 于 发 现存 在 因 
果 关 系 结构 的 目标 。 其 假定 是 ， 有 一 个 网 络 结构 能 够 精确 地 表示 生成 数据 分 布 的 独立 性 。 
那么 ， 确 定 两 个 变量 之 间 数 据 的 (条 件 ) 独 立 性 ， 由 此 可 推出 这 两 个 变量 之 间 没 有 带 箭头 的 
有 向 边 。 一 旦 确定 边 的 位 置 ， 以 及 指定 边 的 方向 ， 就 可 以 适当 地 表示 数据 的 条 件 独立 性 。 

第 三 类 ， 全 局 评分 度量 (global score metrics)。 对 于 一 个 给 定 的 数据 集 ， 评 估 贝 叶 斯 网 
络 性 能 的 一 种 自然 的 方式 是 : 通过 估算 期 望 效用 (如 分 类 的 准确 性 ) 来 预测 其 未 来 性 能 。 交 
又 验证 通过 反复 将 数据 划分 为 训练 集 和 验证 集 ， 对 样本 进行 评估 ， 提 供 了 可 行 的 度量 方 
法 。 通 过 训练 集 估计 网 络 的 参数 ， 通 过 验证 集 判 定 贝 叶 斯 网 络 的 性 能 ， 可 以 评估 贝 叶 斯 网 
络 的 结构 。 贝 叶 斯 网 络 对 验证 集 的 平均 性 能 为 评估 网 络 质量 提供 了 一 个 度量 。 

交叉 验证 与 局 部 评分 度量 的 不 同 点 在 于 ， 网 络 结构 的 质量 往往 不 能 分 解 为 用 各 个 节点 
的 分 数 表示 。 因 此 ， 需 要 综合 考虑 整个 网 络 以 确定 其 得 分 。 

第 四 类 ， 固 定 结构 (fixed structure)。 最 后 ， 还 有 一 些 适 用 于 贝 叶 斯 网 络 结构 固定 的 方 
法 。 例 如 ， 从 XML BIF 文件 读 取 网 络 结构 。 
下 面 分 别 说 明 这 几 类 学 习 算 法 。 
1. 条 件 独立 测试 


与 其 他 的 网 络 学 习 算 法 不 同 ， 条 件 独立 测试 结构 学 习 算 法 没有 采用 基于 评分 的 搜索 方 
法 ， 而 是 采用 基于 依赖 性 测试 的 方法 ， 在 给 定数 据 集中 评估 变量 之 间 的 条 件 独 立 性 关系 ， 
构建 网 络 结构 。 目 前 ，Weka 只 实现 了 CI 和 ICS 两 种 算法 ， 如 图 6.33 所 示 。 
CISearchAlgorithm 算法 基于 条 件 独立 性 测试 ， 是 支持 贝 叶 斯 网 络 结构 的 搜索 算法 。 
ICSSearchAlgorithm 是 一 种 贝 叶 斯 网 络 学 习 算法 ， 它 使 用 条 件 独 立 测试 以 发 现 网 络 构 
架 ， 找 到 V- 节 点 (a、b、c 节点 形成 a 一 c 一 b 的 结构 ， 称 为 V- 节 点 ) 并 应 用 一 套 规则 来 发 现 
剩余 箭头 的 方向 。 


2. 固定 结构 学 习 


通过 选择 固定 的 网 络 结构 ， 可 以 跳 过 结构 学 习 步 又。 有 两 种 方法 可 以 得 到 固定 的 网 络 
结构 : 第 一 种 方法 是 从 文件 中 读 取 XML BIF 格式 的 数据 ， 第 二 种 方法 是 采用 朴素 贝 叶 斯 
网 络 ， 如 图 6.34 所 示 。 
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图 6.33 ”条件 独立 测试 图 6.34 固定 结构 学 习 


3. 全 局 评分 度量 

Weka 的 全 局 评分 度量 实现 了 如 下 算法 : GeneticSearch( 遗 传 搜索 )、HillClimbing( 疏 山 
法 )、K2 、RepeatedHillClimber( 重复 息 山 法 )、SimulatedAnnealing( 模 拟 退 火 )、 
TabuSearch( 禁 忌 搜索 ) 和 TAN(Tree-Augmented Naive Bayes， 树 增强 朴素 贝 叶 斯 )， 如 
图 6.35 所 示 。 

基于 交叉 验证 算法 的 通用 选项 有 initAsNaiveBayes 、markovBlanketClassifier 和 
maxNrOfParents， 参 见 “ 局 部 评分 度量 ”部 分 。 

另外 ， 对 于 每 个 基于 交叉 验证 的 算法 ， 可 以 选择 的 CVType 有 以 下 几 种 。 

(1) Leave one out cross-validation(LOO-CV， 留 一 法 交叉 验证 ): 从 数据 集 D 中 去 掉 第 i 
个 样本 数据 ， 将 该 第 i 个 样本 数据 作为 验证 集 ， 剩 下 的 样本 数据 作为 训练 集 D'!， 一 共有 
m=N 种 划分 。 留 一 法 交叉 验证 并 不 总 能 产生 准确 的 性 能 估计 。 

(2) K-fold cross-validation(k-Fold-CV, 天 折 交 叉 验 证 ): 将 数据 集 D 大 致 平均 地 划分 为 
m 等 分 ， 即 D1/、D;、…、Dm。 将 验证 集 D; 从 数据 集 D 中 移 除 就 得 到 训练 集 D'! 。 典 型 的 m 
值 可 为 5、10 和 20。 如 果 取 m=N,，k 折 交叉 验证 就 成 为 留 一 法 交叉 验证 。 

(3) Cumulative cross-validation(Cumulative-CV， 累 积 交 义 验证 ): 从 一 个 空 数据 集 开 
始 ， 从 数据 集 D 中 一 条 一 条 地 添加 实例 。 每 次 添加 一 条 实例 后 ， 使 用 当前 贝 叶 斯 网 络 的 状 
态 对 下 一 条 实例 进行 分 类 。 

最 后 是 useProb 标志 ， 如 果 设置 为 True， 分 类 器 的 准确 性 使 用 类 别 概率 估计 ; 如 果 设 
置 为 False， 则 使 用 0-1 损失 进行 估计 。 

4. 局 部 评分 度量 

通过 选择 weka.classifiers.bayes.net.search.local 包 下 的 任意 一 个 算法 ， 就 选择 了 基于 局 
部 评分 的 结构 学 习 算法 ， 如 图 6.36 所 示 。 

局 部 评分 度量 算法 具有 如 下 通用 选项 。 

(1) initAsNaiveBayes: 如 果 设 置 为 True( 默 认 值 )， 则 将 朴素 贝 叶 斯 网 络 结构 作为 开始 
遍历 搜索 空间 的 初始 网 络 结构 ， 即 从 类 别 变 量 都 有 有 向 边 指 向 每 个 属性 变量 的 结构 ， 如 果 
设置 为 False， 则 使 用 空 的 网 络 结构 ， 即 没有 任何 有 向 边 。 
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— WE | 
上 van | 站 veks 
©- classifiers ls BD classifier 
日 旧 beyes | 日 旧 bees 
mt mt 
BD search © search 
和 i Bei 
Hb fixed © fixed 
SB ab 站 ©- elobal 
® GeneticSearch 中 -Bl 
。 HEFT 引 © GeneticSearch 
ei | © Hillclinber 
® RepeatedHillClimber . 
® Sinulatedinnealing © LAGDHil1CLinber 
® TabuSearch 二 RepeatedillClinber 
® TAI 人 SinulatedAnnesling 
由 日 loeu ® TabuSearch 
| © IAI 
图 6.35 全 局 评分 度量 算法 图 6.36 ”局 部 评分 度量 算法 


(2) markovBlanketClassifier: 如 果 设 置 为 True， 在 遍历 搜索 空间 结束 时 ， 使 用 一 种 启 
发 式 校正 算法 以 确保 每 个 属性 都 位 于 分 类 器 节点 马尔 可 夫 毯 中 。 如 果 节 点 已 经 在 马尔 可 夫 
毯 中 ( 即 分 类 器 节点 的 父母 节点 、 见 弟 节点 的 子 节点 )， 则 什么 也 不 发 生 ， 否 则 会 添加 一 个 
有 向 边 。 如 果 设 置 为 False( 默 认 值 )， 则 不 添加 有 向 边 。 

(3) scoreType: 确定 使 用 的 评分 度量 。 当 前 实现 了 BAYES、K2、BDeu、AIC、 
ENTROPY 和 MDL 算法 。 

(4) maxNrOfParents: 表示 学 习 得 到 的 网 络 结构 中 ， 每 个 节点 的 父 节点 数目 的 上 限 。 


6.1.5 分布 学 习 


一 旦 完成 网 络 结构 学 习 ， 就 可 以 学 习 条 件 概率 表 ，weka.classifiers.bayes.net.estimate 包 
中 有 以 下 四 种 学 习 算法 。 

(1) BayesNetEstimator: 完成 网 络 结构 学 习 后 ， 估 计 贝 叶 斯 网 络 条 件 概率 表 的 基 类 。 

其 配置 选项 说 明 如 下 。 

alpha(o): 该 参数 用 于 估计 条 件 概率 表 ， 可 以 解释 为 每 个 值 的 初始 值 。 默 认 值 为 0.5。 

(2) BMAEstimator: 使 用 BMA(Bayes Model Averaging， 贝 叶 斯 模型 平均 ) 方 法 估计 贝 
叶 斯 网 络 的 条 件 概率 表 。 


其 配置 选项 说 明 如 下 。 
@ alpha(o): 该 参数 用 于 估计 条 件 概率 表 ， 可 以 解释 为 每 个 值 的 初始 值 。 默 认 值 为 
0.5。 


@ ”useK2Prior( 使 用 K2 先 验 ): 是 否 使 用 K2 先 验 。 默 认为 False。 
(3) MultiNomialBMAEstimator: BMA 估计 器 的 多 项 式 版 本 。 


其 配置 选项 说 明 如 下 。 
@ ”alpha(a): 该 参数 用 于 估计 条 件 概率 表 ， 可 以 解释 为 每 个 值 的 初始 值 。 默 认 值 为 
0.5。 


@ useK2Prior( 使 用 K2 先 验 ): 是 否 使 用 K2 先 验 。 默 认为 True。 
(4) SimpleEstimator: 用 于 在 完成 网 络 结构 学 习 后 ， 估 计 贝 叶 斯 网 络 条 件 概率 表 。 它 直 
接 从 数据 中 估计 概率 。 


其 配置 选项 说 明 如 下 。 
alpha(o): 该 参数 用 于 估计 条 件 概率 表 ， 可 以 解释 为 每 个 值 的 初始 值 。 默 认 值 为 0.5。 


6.1.6 ”查看 贝 叶 斯 网 络 

用 户 可 以 查看 在 探索 者 界面 中 学 习 到 的 贝 叶 斯 网 络 的 一 些 属性 ， 既 可 以 查看 其 文本 格 
式 ， 也 可 以 查看 其 图 形 格式 。 

1. 查看 文本 

在 Weka 探索 者 中 使 用 BayesNet 分 类 器 对 交尾 花 数据 进行 分 类 ， 使 用 分 类 器 的 默认 

最 开始 的 输出 是 BayesNet 学 习 方案 以 及 选项 ， 包 括 结构 学 习 器 和 分 布 估计 器 的 全 限定 
类 名 称 。 输 出 如 下 : 


=—= Run information =— 


Scheme: weka.classifiers.bayes.BayesNet -D -Q 
weka.classifiers.bayes.net.search.local.K2 -- -P 1 -S BAYES -E 
weka.classifiers.bayes.net.estimate.SimpleEstimator -- -A 0.5 


然后 输出 数据 集 的 基本 信息 ， 包 括 关系 名 称 、 实 例 数量 、 属 性 信息 ， 还 有 测试 模式 及 
分 类 模式 ， 以 及 是 否 使 用 ADTree 算法 。 具 体 如 下 : 
Relation: iris 
Instances: 150 
Attributes: 5 
sepallength 
sepalwidth 
petallength 
petalwidth 
class 
Test mode: 10-fold cross-validation 


=== Classifier model (full training set) 一 = 


Bayes Network Classifier 
not using ADTree 


下 面 一 行列 出 该 分 类 器 进行 训练 的 属性 数目 和 类 别 变量 索引 : 

#attributes=5 #classindex=4 

随后 输出 的 列表 指定 网 络 结构 。 每 个 变量 后 面 紧 跟着 父 节点 的 列表 ， 因 此 petallength 
等 变量 的 父 节点 都 是 类 别 节点 ， 而 类 别 节点 没有 父 节点 。 括 号 中 的 数字 是 该 变量 的 重 数 ， 
这 里 表示 高 尾 花 数据 集 有 三 个 类 别 变量 。 其 他 连续 变量 都 通过 有 监督 的 Discretize 过 滤器 
自动 离散 化 。 输 出 如 下 : 


Network structure (nodes followed by parents) 
sepallength(3): class 
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sepalwidth (3) : class 
petallength (3) : class 
petalwidth (3) : class 
class (3) : 


随后 的 行列 出 了 各 种 评分 方法 得 出 的 网 络 结构 的 对 数 得 分 : 


LIogScore Bayes: -481.00632967833803 
LogScore BDeu: -525.3834868062277 
LogSscore MDL: -536.5317339418378 
LogScore ENTROPY: -471.39347511858665 
LogScore AIC: -497.39347511858665 


如 果 指 定 BIF 文件 ， 将 输出 类 似 于 如 下 两 行 信息 : 


Missing: 0 Extra: 2 Reversed: 0 
Divergence: -0.0719759699700729 


系统 将 学 习 过 的 网 络 与 BIF 文件 中 的 网 络 结构 进行 比较 ，Missing( 缺 失 ) 后 的 数值 表示 


在 文件 的 网 络 中 存在 ， 但 经 过 结构 学 习 器 后 没有 恢复 的 连 线 数目 。 需 要 注意 的 是 ， 学 习 后 
反 向 的 连 线 不 能 算 作 缺失 。Extra( 额 外 ) 后 的 数值 表示 经 过 学 习 的 网 络 中 新 增 的 ， 但 在 文件 
的 网 络 中 没有 连 线 的 数目 。 反 向 的 连 线 数 量 也 一 并 列 出 。 


本 例 中 ， 由 于 没有 指定 BIF 文件 ， 因 此 不 打印 上 述 信息 。 
输出 的 其 余部 分 是 所 有 分 类 器 的 标准 输出 ， 列 示 如 下 : 


Time taken to build model: 0.01 seconds 


= 一 Stratified cross-validation = 一 


=== Summary =— 

Correctly Classified Instances 139 92.6667 $% 
Incorrectly Classified Instances 3 353333 % 
Kappa statistic 0.89 

Mean absolute error 0.0454 

2. 查看 图 形 


要 显示 贝 叶 斯 网 络 的 图 形 结 构 ， 可 在 探索 者 界面 的 结果 列表 中 右 击 相应 的 BayesNet 条 


目 ， 然 后 在 弹出 的 快捷 菜单 中 选择 Visualize graph( 可 视 化 图 ) 菜 单项 。 此 时 会 弹出 一 个 
Weka 分 类 器 图 形 可 视 化 器 ， 自 动 布局 并 显示 贝 叶 斯 网 络 ， 如 图 6.37 所 示 。 


将 鼠标 在 一 个 节点 上 悬 停 一 会 ， 该 节点 变 为 蓝 色 ， 且 所 有 的 子 节点 都 变 为 紫红 色 。 这 


样 ， 在 复杂 的 图 形 中 很 容易 辨别 节点 之 间 的 关系 。 


在 图 6.37 所 示 的 图 形 可 视 化 器 上 部 有 一 个 工具 栏 ， 一 共有 四 个 按钮 加 中 央 的 一 个 文本 


框 ， 下 面 从 左 到 右 说 明 每 个 按钮 的 功能 。 


第 一 个 按钮 用 于 保存 图 形 。 单 击 该 按钮 会 弹出 一 个 “保存 ”对 话 框 ， 允 许 用 户 选 择 文 


件 名 和 文件 格式 。 可 以 选择 XML BIF 格式 或 DOT 格式 ， 将 贝 叶 斯 网 络 保存 为 文件 。 


第 三 、 三 两 个 按钮 与 图 形 缩放 有 关 。 两 个 按钮 分 别 用 于 放大 和 缩小 ， 两 个 按钮 中 间 有 


一 个 文本 框 ， 用 于 输入 所 需 的 缩放 比例 ， 输 入 百分比 后 按 Enter 键 ，Weka 按照 所 需 的 缩放 


水 平 重 绘图 形 。 


图 6.37 分 类 器 图 形 可 视 化 器 


最 后 一 个 按钮 用 于 显示 /隐藏 绘图 选项 。 单 击 该 按钮 可 以 显示 (或 隐藏 ) 用 于 控制 图 形 布 
局 的 额外 选项 ， 如 图 6.38 所 示 。 

(1) Layout Type( 布 局 类 型 )， 确定 放置 节点 所 使 用 的 算法 。 

(2) Layout Method( 布 局 方法 ): 确定 放置 节点 考虑 的 方向 ， 是 自 上 而 下 还 是 自 下 而 上 。 

(3) With Edge Concentration( 带 边 集中 度 ): 设置 是 否 允 许 部 分 合并 边 。 

(4) Custom Node Size( 自 定义 节点 大 小 ): 用 于 自 定义 节点 的 大 小 ， 而 非 自 动 确定 。 


Extracentrels 
Layout Type 
OO Waive Leesr 
Opriority Layout 


Leyout Mothod 
Ore nm 
Ootton 由 


口 ith Edee Concentration 
口 custom Jade Size 
tidth [而 
Wighd nm | 


Layout Graph 
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图 6.38 绘图 选项 


当 用 户 在 贝 叶 斯 网 络 中 单 击 一 个 节点 时 ， 会 弹出 一 个 对 话 框 ， 显 示 所 单 击 节点 的 概率 
表 ， 如 图 6.39 所 示 。 左 侧 显 示 父 节点 属性 ， 并 列 出 父 节点 的 所 有 取 值 ， 右 侧 显 示 在 满足 父 
节点 值 的 条 件 下 ， 所 单 击 节点 的 概率 。 可 以 注意 到 ， 这 里 的 节点 (sepallength) 已 经 被 自动 离 


散 化 为 三 个 取 值 。 


图 6.39 节点 的 概率 表 
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因此 ， 图 形 可 视 化 器 允许 用 户 检查 网 络 结构 和 概率 表 。 


6.1.7 ”手把手 教 你 用 


1. 使 用 贝 叶 斯 网 络 编辑 器 建 模 

本 示例 将 手工 创建 如 图 6.1 所 示 的 典型 贝 叶 斯 网 络 。 

首先 打开 贝 叶 斯 网 络 编辑 器 。 选 择 Edit | Add Node 菜单 项 ， 打 开 Add node 对 话 框 ， 
将 节点 名 称 改 为 Cloudy， 保 持 重 数 为 2 不 变 (因为 只 有 二 元 )， 单 击 Ok 按钮 确认 添加 节 
点 ， 如 图 6.40 所 示 。 

然后 ， 在 图 形 面板 中 右 击 新 增 的 Cloudy 节点 ， 在 弹出 的 快捷 菜单 中 选择 Rename 
value | Valuel 菜单 项 ， 打 开 如 图 6.41 所 示 的 对 话 框 ， 将 值 名 称 改 为 了 ， 然 后 单 击 “确定 ” 
按钮 结束 修改 。 用 同样 的 方法 ， 将 Value2 值 名 称 改 为 T。 


人 New name for value Value1 
Tie 


确定 | 取消 


图 6.40 添加 Cloudy 节点 图 6.41 修改 节点 值 名 称 
重复 以 上 步骤 ， 添 加 Sprinkler、Rain 和 WetGrass 节点 ， 拖 动 这 些 节 点 到 合理 的 位 
置 ， 如 图 6.42 所 示 。 


Ele Edit Tools View Help 
DD 日 防 4 阳 息 2 人 | 民 涪 下 站 国 田 以 于 区 J 机 


图 6.42 添加 四 个 节点 后 的 图 形 


亚 注意 : ”Weka 3.7.13 版 本 的 贝 叶 斯 网 络 编辑 器 似乎 有 些 BUG， 在 拖 动 节点 时 有 时 会 
将 全 部 节点 重 树 在 一 起 ， 和 解决 方法 是 ， 在 选中 节点 之 后 ， 在 空白 处 单 击 一 下 
鼠标 ， 然 后 再 拖 动 ， 就 不 会 再 有 重要 问题 。 


图 6.42 中 的 Sprinkler 节点 没有 显示 出 全 名 ， 只 显示 了 一 个 “1”， 这 是 因为 该 名 称 太 
长 无 法 显示 。 按 照 下 面 步骤 修改 : 选择 Tools | Layout 菜单 项 ， 打 开 如 图 6.43 所 示 的 对 话 
框 ， 按 图 定制 节点 的 宽 和 高 ， 修 改 完成 后 单 击 Layout Graph 按钮 关闭 对 话 框 。 

下 一 步 ， 为 网 络 添加 有 向 边 。 右 击 Sprinkler 节点 ， 在 弹出 的 快捷 菜单 中 选择 Add 


y 
人 


parent | Cloudy 菜单 项 ， 添 加 Cloudy 节点 到 Sprinkler 节点 
的 有 向 边 。 按 照 同样 的 步骤 添加 Cloudy 节点 到 Rain 节点 
的 有 向 边 、Sprinkler 节点 到 WetGrass 节点 的 有 向 边 ， 以 及 
Rain 节点 到 WetGrass 节点 的 有 向 边 ， 并 适当 调整 节点 位 
置 。 完 成 以 后 的 网 络 结构 如 图 6.44 所 示 。 

下 一 步 ， 编 辑 CPT。 首 先 右 击 Cloudy 节点 ， 在 弹出 的 
快捷 菜单 中 选择 Edit CPT 菜单 项 ， 弹 出 如 图 6.45 所 示 的 对 
话 框 。 由 于 Cloudy 节点 没有 父 节 点 ， 因 此 其 CPT 只 有 一 
行 ; 其 重 数 为 2， 因 此 只 有 两 列 。 该 CPT 不 需要 修改 ， 因 
此 查看 后 直接 单 击 Ok 按钮 关闭 对 话 框 。 
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图 6.44 网络 结构 
按照 同样 的 方式 ， 对 照 图 6.46 一 图 6.48， 分 别 编辑 Sprinkler 节点 、Rain 节点 和 


WetGrass 节点 的 CPT。 


6.47 Rain 节点 的 CPT 图 6.48 WetGrass 节点 的 CPT 


到 目前 为 止 ， 已 经 构建 了 贝 叶 斯 网 络 的 结构 ， 并 且 编 辑 了 CPT。 为 了 将 来 能 够 复 用 ， 
将 网 络 保 存 为 XML BIF 文件 。 选 择 File | Save As 菜单 项 ， 在 弹出 的 Save Graph As 对 话 框 
中 选择 保存 目录 ， 输 入 保存 文件 名 ， 选 择 文件 类 型 ， 如 图 6.49 所 示 ， 最 后 单 击 “ 保 存 ” 按 
钮 关闭 对 话 框 。 
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Weber3-? 


上 changelogs 
Bb dot 

doc 

B output 

BB weka-src 
Dtmp.bif flexml 


文件 名 国 : [roteress 
文件 类 型 (D): [DEL BIF files 


图 6.49 保存 文件 
2. 使 用 贝 叶 斯 网 络 编辑 器 进行 推理 
如 果 贝 叶 斯 网 络 不 能 用 于 推理 ， 那 它 就 没有 什么 用 处 。 本 示例 使 用 上 一 个 示例 得 到 的 
贝 叶 斯 网 络 ， 验 证 前 文中 根据 贝 叶 斯 规则 得 到 的 后 验 概率 。 
首先 运行 贝 叶 斯 网 络 编辑 器 ， 选 择 File | Load 菜单 项 ， 加 载 上 一 个 示例 得 到 的 贝 叶 斯 
网 络 一 一 wetgrass.xml 文件 。 然 后 ， 选 择 Tools | Show Margins 菜单 项 ， 可 以 看 到 ， 每 个 节 
点 旁边 都 以 绿色 文字 显示 该 节点 的 边缘 概率 ， 如 图 6.50 所 示 。 


Fe Edit Tools Yiew Help 
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6.50 ”显示 边缘 概率 


从 图 6.50 中 最 下 面 的 一 个 节点 可 以 看 到 ，WetGrass 变量 为 True 的 概率 为 0.6471， 和 
前 文 计算 得 到 的 P( 关 =D 值 一 致 。 

为 了 得 到 P(S =1| 玉 =D 和 P(R=1|W=1)， 首 先 要 设置 条 件 =-1。 为 此 ， 碳 了 
WetGrass 节点 ， 选 择 Set evidence | 工 菜 单项 ， 这 时 ，WetGrass 节点 旁边 的 文字 变 成 红色 ， 
显示 当前 证 据 ( 草 湿 为 True)， 如 图 6.51 所 示 。 

普 注意 :， 这 里 并 没有 显示 1， 而 是 显示 0.9999， 这 可 能 是 由 于 Java 中 的 浮 点 数 类 型 
float 和 double 在 表示 浮 点 数 时 存在 误差 ， 如 果 Weka 在 内 部 使 用 BigDecimal 
类 型 可 能 可 以 避免 这 个 问题 。 

现在 来 看 Sprinkler 节点 ， 该 节点 的 第 二 行 显示 0.4297， 与 前 面 计算 得 到 的 结果 
P(S=1|IW=1)=0.4298 稍 有 误差 ; Rain 节点 的 第 二 行 显示 0.7079 ， 与 
P(R=1|WW=1)=0.7079 完全 一 致 。 可 见 ， 使 用 贝 叶 斯 网 络 进行 推理 ， 可 以 省 略 很 大 的 计算 
工作 量 ， 得 到 的 结果 仅 有 微小 的 可 以 忽略 的 误差 。 
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图 6.51 设置 证 据 
顺便 提 一 下 ， 如 果 要 恢复 为 设置 证 据 前 的 状态 ， 选 择 Set evidence | Clear 菜单 项 
即 可 。 
3. 使 用 贝 叶 斯 网 络 编辑 器 从 数据 集 学 习 


首先 启动 贝 叶 斯 网 络 编辑 器 ， 选 择 File|Load 菜单 项 ， 加 载 data 目录 下 的 
weather.nominal.arff 文件 。 这 时 ， 贝 叶 斯 网 络 编辑 器 应 该 显示 五 个 节点 ， 对 应 天 气 数据 集 
的 五 个 属性 ， 如 图 6.52 所 示 。 可 以 看 到 temperature 节点 只 显示 一 个 “1”， 按 照 前 文 所 述 
的 方法 定制 节点 的 宽 和 高 ， 可 以 使 节点 文字 都 能 显示 出 来 。 


Ble Edit Tools View Help 
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6.52 ”加 载 数 据 集 后 的 网 络 
选择 Tools | Learn Network 菜单 项 ， 会 弹出 如 图 6.53 所 示 的 Learn Bayesian Network( 学 


习 贝 叶 斯 网 络 ) 对 话 框 。 


央 Leam Bayesian Network 
| Options Js net estinate SinpleEstinator 一 -0.5 
[Liewn Eancel 


6.53 ”Learn Bayesian Network 对 话 框 


保持 默认 参数 不 变 ， 单 击 Leam 按钮 启动 学 习 。 完 成 网 络 结 构 学 习 后 的 贝 叶 斯 网 络 如 
图 6.54 所 示 。 可 以 看 到 ， 由 于 从 类 别 属 性 节点 到 每 一 个 其 他 属性 节点 都 有 且 只 有 一 条 有 向 
边 ， 因 此 图 6.54 就 是 一 个 朴素 贝 叶 斯 网 络 。 这 是 由 于 使 用 默认 参数 ，initAsNaiveBayes 选 
项 默认 设置 为 True， 因 此 用 于 结构 学 习 的 初始 网 络 是 朴素 贝 叶 斯 网 络 。 如 果 该 选项 设置 为 
False， 初 始 的 网 络 结构 是 空 网 络 。 
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6.54 ”学 习 后 的 贝 叶 斯 网 络 


到 目前 为 止 ， 图 6.54 所 示 的 贝 叶 斯 网 络 是 直接 从 数据 集 经 网 络 结构 学 习 后 得 到 的 ， 且 
没有 进行 任何 修改 操作 。 下 一 步 ， 手 动 学 习 参 数 ， 其 步骤 是 : 选择 Tools |Leam CPT 菜单 
项 。 学 习 CPT 参数 不 会 改变 贝 叶 斯 网 络 的 结构 ， 只 会 改变 条 件 概 率 表 ， 另 外 ， 学 习 CPT 
还 会 清除 undo 栈 。 

现在 来 看 看 经 过 学 习 后 的 网 络 是 否 能 够 进行 推理 。 假 设 现在 有 这 么 一 个 问题 ， 当 输入 
满足 outlook = sunny、temperature = cool、humidity = high 且 windy = TRUE 时 ， 是 否 可 以 
play? 首先 选择 Tools | Show Margins 菜单 项 以 显示 节点 的 边缘 概率 。 然 后 ， 右 击 outlook 
节点 ， 选 择 Set evidence | sunny 菜单 项 ， 设 置 outlook 节点 的 当前 证 据 为 sunny， 再 按照 同 
样 的 方法 ， 设 置 temperature 、humidity 和 windy 节点 的 证 据 分 别 为 cool、high 和 
TRUE， 如 图 6.55 所 示 。 
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6.55 ”使 用 网 络 进行 推理 


从 图 中 可 以 看 到 ，play 为 yes 的 概率 为 0.2359， 为 no 的 概率 为 0.7640， 因 此 不 可 运 
动 。 读 者 可 使 用 联合 概率 的 计算 公式 自行 验证 上 述 结果 。 

前 面 的 网 络 是 使 用 结构 学 习 而 得 到 的 ， 通 过 改变 参数 ， 可 以 得 到 不 同 的 网 络 。 再 次 选 
择 Tools | Learn Network 菜单 项 ， 会 弹出 如 图 6.53 所 示 的 对 话 框 。 单 击 其 中 的 Options 
按钮 ， 会 弹出 如 图 6.56 所 示 的 通用 对 象 编辑 器 对 话 框 。 对 话 框 上 部 的 Choose 按钮 可 用 于 
选择 不 同 的 贝 叶 斯 网 络 算法 ， 下 部 可 用 于 设置 贝 叶 斯 网 络 算法 的 选项 。 

单 击 searchAlgorithm 选项 旁 的 Choose 按钮 可 选择 搜索 算法 ， 本 例 还 是 使 用 K2 算 
法 。 单 击 显示 K2 及 参数 的 文本 框 ， 在 弹出 的 对 话 框 中 将 maxNrOfParents 选项 由 默认 的 1 
设置 为 3， 如 图 6.57 所 示 。 

单 击 两 次 OK 按钮 回 到 如 图 6.53 所 示 的 对 话 框 。 再 次 单 击 Leam 按钮 ， 新 的 贝 叶 斯 网 
络 如 图 6.58 所 示 。 可 见 ， 由 于 将 maxNrOfParents 参数 设置 为 3，windy 节点 的 父 节 点 变 为 
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6.57 ”设置 参数 
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6.58 新 的 贝 叶 斯 网 络 


如 果 对 学 习 得 到 的 网 络 结构 不 满意 ， 可 以 手工 修改 ， 修 改 完成 后 ， 最 好 再 次 学 习 
CPT;, 


4. 使 用 朴素 贝 叶 斯 网 络 
朴素 贝 叶 斯 网 络 是 最 为 简单 的 贝 叶 斯 网 络 。 本 示例 使 用 NaiveBayes 分 类 器 对 天 气 数据 
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集 进行 训练 ， 并 评估 分 类 模型 的 性 能 。 

首先 ， 运 行 Weka 探索 者 界面 ， 在 Preprocess 标签 页 中 单 击 Open file 按钮 ， 然 后 选择 
data 目录 下 的 weather.numeric.arff 文件 。 该 数据 集 的 类 别 属性 是 标 称 型 属性 ， 而 四 个 属性 
中 有 两 个 属性 为 标 称 型 ， 另 外 两 个 为 数值 型 ， 不 过 不 用 担心 ，NaiveBayes 会 自动 使 用 有 监 
督 的 离散 化 来 处 理 数 值 型 属性 。 

然后 ， 切 换 至 Classify 标签 页 ， 单 击 Choose 按钮 选择 NaiveBayes 分 类 器 ， 保 持 默认 
的 十 折 交 叉 验 证 测试 选项 ， 单 击 Start 按钮 启动 训练 和 模型 评估 ， 运 行 结果 如 图 6.59 所 示 。 


6.59 NaiveBayes 分 类 器 运行 结果 


可 以 看 到 ， 在 输出 表格 中 显示 了 NaiveBayes 分 类 模型 的 参数 ， 第 一 列 显示 属性 ， 另 外 
两 列 显示 类 别 值 。 表 格 中 的 单元 格 显示 标 称 型 属性 的 频 度 计数 或 数值 型 属性 的 正 态 分 布 参 
数 。 例 如 ， 图 6.59 中 显示 类 别 值 为 yes 的 实例 的 temperature 均值 为 72.9697， 而 类 别 值 为 
yes 且 outlook 的 值 为 sunny、overcast 和 rainy 的 实例 数 分 别 为 3.0、5.0 和 4.0。 细 心 的 读者 
会 注意 到 ，outlook 的 三 个 属性 值 的 频 度 总 和 为 20(12.0+8.0=20.0)， 大 于 天 气 数 据 集中 实例 
的 总 数 14。 这 种 情况 出 现 的 原因 是 ，NaiveBayes 为 避免 出 现 为 0 的 频 度 值 ， 而 使 用 了 拉 普 
拉 斯 校正 ， 它 将 每 一 个 频 度 计 数 初始 化 为 1 而 不 是 0。 

除了 NaiveBayes 分 类 器 之 外 ， 还 有 多 种 贝 叶 斯 分 类 器 可 用 。 了 解 在 什么 情况 下 该 使 用 
哪 一 种 贝 叶 斯 分 类 器 是 贝 叶 斯 算法 爱好 者 的 必修 课 ， 这 里 留 作 习题 。 


5. 定制 网 络 结构 的 贝 叶 斯 网 络 


本 示例 展示 如 何 混合 使 用 贝 叶 斯 网 络 编辑 器 和 探索 者 界面 ， 在 机 器 学 习 中 加 入 一 些 人 
类 思维 ， 以 更 好 地 结合 人 类 智能 。 

首先 ， 运 行 Weka GUI 选择 器 窗口 ， 在 菜单 中 选择 Tools | Bayes net editor 菜单 项 ， 启 
动 贝 叶 斯 网 络 编辑 器 。 

然后 ， 在 贝 叶 斯 网 络 编辑 器 中 ， 选 择 File | Load 菜单 项 ， 加 载 data 目录 下 的 iris.arff 
文件 。 加 载 数据 集 后 的 贝 叶 斯 网 络 编辑 器 如 图 6.60 所 示 。 

注意 到 只 有 class 节点 可 以 看 清 节 点 里 的 文字 ， 选 择 File | Layout 菜单 项 ， 在 弹出 的 
Graph Layout Options 对 话 框 中 ， 先 选中 Custom Node Size 复 选 框 ， 然 后 将 Width 选项 设置 
为 80， 最 后 单 击 Layout Graph 按钮 关闭 对 话 框 ， 得 到 的 结果 如 图 6.61 所 示 。 
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6.61 调整 布局 后 的 网 络 节点 


选择 Tools | Learm Network 菜单 项 ， 在 弹出 的 如 图 6.62 所 示 的 Learn Bayesian Network 
对 话 框 中 ， 单 击 Leam 按钮 ， 得 到 如 图 6.63 所 示 的 贝 叶 斯 网 络 。 


le Ea Tool Vo Help 
DD 日 YN 2 | 局 R 抱 国 田 HX LmR 加 | 


图 6.62 Learn Bayesian Network 对 话 框 图 6.63 学 习 得 到 的 网 络 结构 

选择 File | Save 菜单 项 ， 打 开 Save Graph As 对 话 框 ， 选 择 文件 类 型 为 XML BIF 
files， 然 后 导航 至 data 目录 ， 在 “文件 名 ”文本 框 中 输入 “iris1”， 并 单 击 “ 保 存 ” 按 钮 
进行 保存 。 


ET 


I BIF files 


6.64 ”保存 网 络 


下 一 步 ， 使 用 探索 者 界面 。 记 住 不 要 关闭 贝 叶 斯 网 络 编辑 器 ， 因 为 马上 就 要 使 用 。 

运行 探索 者 界面 ， 在 Preprocess 标签 页 中 单 击 Open file 按钮 打开 iris.arff 文件 ， 切 换 
至 Classify 标签 页 ， 单 击 Classifier 选项 组 中 的 Choose 按钮 ， 选 择 BayesNet 分 类 器 ， 单 击 
Choose 按钮 右面 的 文本 框 ， 弹 出 配置 BayesNet 选项 的 通用 对 象 编辑 器 对 话 框 。 单 击 
SearchAlgorithm 选项 后 面 的 Choose 按钮 ， 选 择 weka.classifiers.bayes.net.search .fixed 包 下 
的 FromFile， 如 图 6.65 所 示 。 
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6.65 ”BayesNet 选项 


单 击 searchAlgorithm 选项 后 面 的 文本 框 ， 在 弹出 的 通用 对 象 编 辑 器 对 话 框 中 ， 在 
BIFFile 文本 框 中 输入 “C:\Weka-3-7\data\irisl.xml”， 加 载 上 一 步 保 存 的 BIF 文件 ， 如 图 6.66 
所 示 。 连 续 两 次 单 击 OK 按钮 关闭 两 个 通用 对 象 编辑 器 对 话 框 。 


ska classifiers. bayes. net. seurch fized. FroaFile 
About 


The FromFile reads the structure of a Bayes netfrom a flle in 
BIFF format 
BPPile |c: Weke-3-TVdatsVirisl ml 
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6.66 加载 BIFFile 


现在 回 到 探索 者 界面 的 Classify 标签 页 ， 使 用 默认 的 十 折 交 叉 验 证 策略 ， 单 击 Start 按 
钮 启动 训练 和 模型 评估 ， 结 果 如 图 6.67 所 示 。 


6.67 ”评估 结果 (1) 


注意 到 现在 的 分 类 准确 率 为 92.6667%， 现 在 尝试 更 改 贝 叶 斯 网 络 结构 ， 加 入 人 类 的 领 
域 知识 ， 试 图 提升 分 类 准确 率 。 

切换 至 贝 叶 斯 网 络 编辑 器 ， 右 击 sepalwidth 节点 ， 在 弹出 的 快捷 菜单 中 选择 Add 
parent | petalwidth 菜单 项 ， 然 后 选择 Tools | Layout 菜单 项 ， 得 到 的 网 络 结构 如 图 6.68 


所 示 。 
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6.68 更改 网 络 结构 


选择 File | Save As 菜单 项 ， 将 更 改 后 的 网 络 保存 为 XML BIF 格式 的 iris2.xml 文件 ， 
如 图 6.69 所 示 ， 单 击 “ 保 存 ” 按 钮 保存 。 


6.69 ”保存 更 改 后 的 网 络 


回 到 探索 者 界面 ， 单 击 Classifier 选项 组 中 的 文本 框 ， 在 弹出 的 通用 对 象 编辑 器 对 话 框 
中 ， 单 击 searchAlgorithm 选项 后 面 的 文本 框 ， 在 弹出 的 通用 对 象 编辑 器 对 话 框 中 ， 在 
BIFFile 文本 框 中 将 irisl.xml 更 改 为 iris2.xml， 加 载 更 改 网 络 后 的 BIF 文件 ， 如 图 6.70 所 
示 。 连 续 两 次 单 击 OK 按钮 关闭 两 个 通用 对 象 编辑 器 对 话 框 ， 回 到 探索 者 界面 。 


waka classifiers. bayes net. search fized FroaFile 
About 


The FromFile reads the structure ofa Bayes netfrom a file in 
BIFF format 


HIFFile |c: Wieka-3-TVdataviris2 xml 


6.70 ”加 载 更 改 后 的 BIF 文件 
再 次 单 击 探索 者 界面 Classify 标签 页 中 的 Start 按钮 ， 启 动 训练 和 模型 评估 ， 评 估 结 果 


如 图 6.71 所 示 。 
对 照 图 6.67 和 图 6.71 容易 得 出 如 下 结论 : 优化 贝 叶 斯 网 络 结构 后 ， 分 类 准确 率 由 原 
来 的 92.6667% 提 高 至 94.6667%， 效 果 令 人 满意 。 
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6.71 评估 结果 (2) 


6.2 神经 网 络 


神经 网 络 (Neural Network，NN) 是 人 工 神经 网 络 (Artificial Neural Network，ANN) 的 简 
称 ， 它 是 一 种 模仿 生物 神经 网 络 结构 和 功能 的 数学 模型 或 计算 模型 。 神 经 网 络 由 大 量 的 节 
点 (或 称 “ 神 经 元 ”或 “单元 ”) 和 节点 之 间 相 互 连 接 而 构成 ， 每 个 节点 代表 一 种 特定 的 输 
出 函数 ， 称 为 激励 函数 。 每 两 个 节点 间 的 连接 都 有 一 个 数值 型 的 权重 值 ， 通 过 实验 可 以 调 
节 权 重 值 ， 这 使 得 神经 网 络 能 够 适应 输入 且 能 够 学 习 。 网 络 的 连接 方式 、 权 重 值 和 激励 函 
数 决 定 了 网 络 的 输出 。 

BP(Back Propagation， 反 向 传播 ) 神 经 网 络 是 误差 反 向 传播 神经 网 络 的 简称 ， 由 一 个 输 
入 层 、 一 个 隐 含 层 和 一 个 输出 层 构成 。Weka 神经 网 络 使 用 多 层 感 知 器 (MultilayerPerceptron) 
实现 了 BP 神经 网 络 ， 是 一 个 使 用 反 向 传播 的 分 类 器 ， 其 全 限定 名 为 
Weka.classifiers.functions.MultilayerPerceptron。 用 户 既 可 以 手工 构建 这 个 网 络 ， 也 可 以 使 用 
算法 构建 ， 或 两 者 兼备 。 在 训练 过 程 中 ， 可 以 对 该 网 络 进行 监视 和 修改 。 

尽管 归属 于 weka.classifiers.functions 包 ，MultilayerPerceptron 分 类 器 有 自己 的 图 形 用 
户 界面 ， 因 此 不 同 于 其 他 的 学 习 方 案 。 


6.2.1 GUI 使 用 


首先 ， 在 Weka 探索 者 界面 中 加 载 weather numeric .arff 数据 集 ， 切 换 至 Classify 标签 
页 ， 选 择 使 用 MultilayerPerceptron 分 类 器 。 单 击 Classifier 选项 组 中 Choose 按钮 右边 的 文 
本 框 ， 在 打开 的 通用 对 象 编辑 器 中 设置 所 选 分 类 器 的 选项 。 在 这 里 只 需 将 GUI 选项 设置 为 
True， 保 持 其 他 选项 不 变 ， 如 图 6.72 所 示 。 然 后 ， 单 击 OK 按钮 关闭 对 话 框 。 

这 里 将 GUI 选项 设置 为 True， 能 使 Weka 弹出 一 个 GUI 界面 ， 允 许 用 户 在 神经 网 络 
训练 过 程 中 暂停 和 修改 。 其 余 选 项 的 具体 描述 可 参见 本 书 附录 B。 

在 Classify 标签 页 中 单 击 Start 按钮 启动 神经 网 络 学 习 ，Weka 会 自动 弹出 一 个 显示 神 
经 网 络 框图 的 窗口 ， 如 图 6.73 所 示 。 窗 口 分 上 下 两 个 部 分 ， 上 部 区 域 显示 神经 网 络 的 结构 
框图 ， 下 部 区 域 可 以 设置 一 些 参数 以 及 控制 神经 网 络 的 运行 。 


图 6.73 ”Neural Network 窗口 


图 6.73 显示 的 网 络 分 为 三 层 : 左边 为 输入 层 ， 每 个 属性 对 应 一 个 绿色 的 矩形 框 ， 输 入 
层 旁 边 的 红色 节点 是 隐藏 层 ， 所 有 的 输入 节点 都 和 隐藏 层 相 连接 ;右边 的 橙色 节点 是 输出 
层 。 最 右边 的 橙色 标签 显示 输出 节点 所 代表 的 类 别 。 数 值 型 类 别 的 输出 节点 会 自动 转换 为 
unthresholded 的 线性 单位 。 

狂 注意 :， 给 入 层 的 属性 与 数据 集中 的 属性 不 完全 对 应 ， 数值 型 属性 (如 temperature 和 
humidity) 和 二 元 标 称 属性 (如 windy) 都 只 是 一 个 输入 节点 ， 但 outlook 有 三 个 
取 值 ， 因 此 占用 三 个 输入 节点 。 

在 单 击 Start 按钮 运行 网 络 之 前 ， 可 以 添加 一 些 节 点 和 连接 以 更 改 网 络 结构 。 可 以 选 定 
节点 或 取消 选 定 节点 ， 可 以 由 节点 中 心 的 颜色 来 区 分 节点 现在 到 底 处 于 选 定 状态 还 是 取消 
选 定 状态 ， 亮 黄色 表示 处 于 选 定 状态 ， 灰 色 表示 处 于 取消 选 定 状态 。 如 果 要 选择 一 个 节 
点 ， 只 要 单 击 该 节点 即 可 ;如果 要 取消 选 定 节点 ， 只 需 右 击 空白 处 既 可 。 要 添加 节点 ， 首 
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数据 挖 所 与 机 器 学 习 
先 要 确保 没有 选 定 任何 节点 ， 然 后 在 窗口 上 部 区 域内 单 击 ， 就 会 在 单 击 位 置 产 生 一 个 新 节 
点 ， 且 新 节点 自动 变 为 选 定 状态 。 
如 果 要 连接 两 个 节点 ， 先 选 定 起 始 节点 ， 然 后 单 击 结束 节点 。 如 果 在 单 击 结束 节点 之 


而 是 空白 位 置 ， 则 创建 一 个 新 节点 作为 结束 节点 。 连 接 节 点 后 ， 起 始 节点 还 保持 为 选 定 状 
态 ， 这 样 ， 用 户 可 以 只 用 很 少 几 次 单 击 就 能 添加 全 部 的 隐藏 层 。 特 别 要 注意 的 是 ， 尽 管 没 
有 用 箭头 在 网 络 中 显示 出 来 ， 节 点 间 的 连接 都 是 有 向 的 。 

如 果 要 删除 某 个 节点 ， 先 确保 没有 任何 节点 处 于 选 定 状态 ， 然 后 右 击 该 节点 。 删 除 节 
点 也 会 自动 删除 所 有 与 该 节点 相连 的 连接 。 要 删除 单个 连接 ， 选 择 一 个 节点 (不 论 是 起 始 节 
点 还 是 结束 节点 )， 然 后 右 击 另 一 个 相连 节点 即 可 。 

在 配置 好 网 络 结构 的 同时 ， 还 可 以 控制 Leaming Rate( 学 习 速率 )、Momentum( 动 量 )， 
以 及 遍历 数据 的 赵 数 ， 称 为 Num Of Epochs( 和 迭代 趟 数 )。 单 击 Start 按钮 启动 网 络 训练 ， 窗 
口 左下 方 显示 正在 运行 的 趟 (Epoch) 以 及 每 趟 的 错误 (Error per Epoch)。 请 注意 ， 该 错误 随 着 
计算 值 后 网 络 的 变化 而 变化 。 对 于 数值 型 类 别 ， 错 误 值 取决 于 类 别 是 否 规范 化 。 当 达到 指 
定数 量 的 趟 数 时 ， 网 络 训练 停止 ， 此 时 ， 可 以 单 击 Accept( 接 受 ) 按 钮 接受 结果 ， 也 可 以 修 
改 网 络 或 参数 ， 并 再 次 单 击 Start 按钮 继续 训练 。 

MnultilayerPerceptron 分 类 器 不 一 定 非 要 通过 图 形 界面 才能 运行 ， 可 以 直接 在 通用 对 象 

编辑 器 中 设置 几 个 参数 ， 以 控制 其 操作 。 如 果 用 户 使 用 图 形 界面 ， 可 以 控制 初始 的 网 络 结 
构 ， 然 后 通过 交互 修改 结构 。 如 果 将 autoBuild 参数 设置 为 True， 会 添加 隐藏 层 并 进行 连 
接 ， 默 认 只 有 如 图 6.73 所 示 的 一 个 隐藏 层 。 但 是 ， 如 果 不 设置 autoBuild 参数 ， 隐 藏 层 将 
不 会 出 现 ， 且 不 会 连接 ， 只 有 输入 层 和 输出 层 的 几 个 孤立 节点 。hiddenLayers 参数 定义 哪 
些 隐藏 层 出 现 以 及 每 一 个 隐藏 层 包含 多 少 个 节点 。 图 6.73 是 由 值 4( 一 个 隐藏 层 包含 四 个 节 
点 ) 产 生 的 。 虽 然 可 以 通过 交互 方式 添加 节点 ， 但 通过 改变 hiddenLayers 参数 的 值 来 达到 同 
样 的 目的 更 为 直接 。hiddenLayers 参数 值 是 一 个 逗号 分 隔 的 整数 列表 ， 为 0 时 表示 没有 隐 
藏 层 ， 为 “4.5” 时 则 表示 第 一 个 隐藏 层 包含 四 个 节点 ， 而 另 一 个 隐藏 层 包 含 五 个 节点 。 参 
数值 除了 可 以 使 用 整数 外 ， 还 可 以 使 用 如 下 预定 义 的 值 : “i” 为 属性 的 数量 ，“o” 为 类 
别 值 的 数量 ，“a” 为 “i” 和 “o” 两 者 的 平均 值 ，“t” 为 两 者 的 和 ， 默 认为 “a”。 
图 6.72 所 示 对 话 框 中 的 leamingRate 和 momentum 参数 为 对 应 变量 设置 值 ， 可 以 在 图 
形 界面 中 改 设 这 些 变量 。decay( 衰 变 ) 参 数 使 学 习 率 随时 间 递减 :将 初始 值 除 以 趟 数 ， 以 获 
区 当前 的 学 习 率 。 该 参数 有 时 会 提高 性 能 ， 并 可 能 会 使 网 络 停止 发 散 。reset( 复 位 ) 参 数 自 
动 将 网 络 复位 为 较 低 的 学 习 率 ， 并 在 偏离 答案 时 重新 启动 训练 。 此 选项 仅 在 不 使 用 图 形 界 
面 时 才 可 用 ， 也 就 是 说 ， 在 GUI 参数 为 True 时 ，reset 参数 只 能 选择 为 False。 

trainingTime 参数 用 于 设置 训练 的 趟 数 ， 默 认为 500 次 。 另 一 种 替代 方案 是 使 用 
validationSetSize 参数 预 留 一 定 百 分 比 的 数据 进行 验证 ， 然 后 继续 训练 ， 直 到 验证 集 的 性 能 
开始 持续 恶化 ， 或 者 达到 指定 的 趟 数 。 如 果 设 置 百 分 比 为 0( 默 认 值 )， 则 不 使 用 验证 集 。 
validationThreshold 参数 用 于 确定 在 训练 停止 前 ， 人 允许 有 多 少 次 验证 集 性 能 连续 恶化 错误 ， 
默认 为 20 次 。 

MnultilayerPerceptron 分 类 器 默认 使 用 nominalToBinaryFilter 过 滤器 ， 如 果 数 据 中 的 标 
称 型 属性 实际 上 就 是 序数 类 型 ， 将 该 选项 设置 为 False 可 以 提高 性 能 。 可 以 使 用 


normalizeAttributes 选项 将 属性 规范 化 。 此 外 ， 可 以 使 用 normalizeNumericClass 选项 将 数值 
型 的 类 别 属性 规范 化 。 这 两 个 规范 化 选项 可 以 提高 性 能 。 上 述 三 个 选项 默认 为 True。 


6.2.2 手把手 教 你 用 

1. 图 形 界面 编辑 操作 

首先 启动 探索 者 界面 ， 在 Preprocess 标签 页 中 单 击 Open file 按钮 ， 在 打开 的 对 话 框 
中 ， 导 航 至 Weka 安装 目录 下 的 data 目录 ， 选 择 加 载 weather.numeric.arff 数据 文件 。 

然后 切换 至 Classify 标签 页 ， 选 择 functions 条 目下 的 MultilayerPerceptron 分 类 器 ， 单 
击 Choose 按钮 右边 的 文本 框 以 打开 通用 对 象 编辑 器 对 话 框 ， 将 GUI 参数 设置 为 True， 
如 图 6.72 所 示 。 由 于 只 是 实验 ， 因 此 选择 的 测试 选项 为 Use training set。 单 击 Start 按钮 启 
动 网 络 学 习 ， 这 时 会 自动 弹出 如 图 6.73 所 示 的 窗口 。 

可 以 看 到 ， 现 在 的 神经 网 络 只 有 一 个 包含 四 个 节点 的 隐藏 层 ， 这 里 的 操作 目标 是 通过 
手工 编辑 ， 再 添加 一 个 包含 五 个 节点 的 隐藏 层 。 具 体操 作 分 为 如 下 三 步 。 

第 一 步 ， 删 除 隐藏 层 到 输出 层 的 连接 。 具 体 步骤 是 ， 选 中 最 上 面 的 隐藏 节点 ， 可 以 看 
到 选中 节点 的 中 心 颜色 由 灰色 变 为 亮 黄 色 ， 然 后 右 击 最 上 面 的 输出 节点 ， 删 除 两 个 节点 间 
的 连接 线 ， 再 右 击 另 一 个 输出 节点 ， 这 样 就 删除 了 第 一 个 隐藏 节点 到 两 个 输出 节点 的 连 
接 。 当 然 ， 这 样 做 的 效率 非常 低 ， 下 面 尝试 高 效 的 操作 。 在 窗口 上 部 区 域 的 空白 处 右 击 ， 
以 取消 节点 的 选中 状态 。 然 后 单 击 选中 第 二 个 隐藏 节点 ， 在 按 住 Ctrl 键 的 同时 依次 单 击 第 
三 个 隐藏 节点 和 第 四 个 隐藏 节点 ， 确 保 第 二 、 三 、 四 个 隐藏 节点 的 中 心 全 部 变 为 亮 黄色 ， 
然后 放 开 Ctrl 键 ， 依 次 右 击 两 个 输出 节点 。 这 样 就 删除 了 从 隐藏 节点 到 输出 节点 的 全 部 
连接 ， 如 图 6.74 所 示 。 最 后 ， 在 空白 处 右 击 ， 取 消 节点 的 选中 状态 。 

第 二 步 ， 添 加 包含 五 个 节点 的 隐藏 层 并 进行 连接 。 具 体 步骤 是 ， 按照 第 一 步 的 方法 ， 
选中 第 一 个 隐藏 层 的 全 部 四 个 节点 ; 然后 ， 在 希望 的 位 置 单 击 ， 可 以 看 到 创建 了 一 个 新 节 
点 且 新 节点 已 经 是 四 个 节点 连接 的 结束 节点 。 重 复 单 击 四 次 鼠标 后 ， 完 成 的 网 络 如 图 6.75 
所 示 。 


图 6.74 删除 隐藏 节点 到 输出 节点 的 全 部 连接 图 6.75 添加 五 个 节点 并 连接 


第 三 步 ， 将 第 二 个 隐藏 层 的 五 个 节点 与 输出 节点 进行 连接 。 具 体 步 骤 是 : 首先 ， 在 空 
白 处 右 击 ， 取 消 节点 选中 状态 ; 然后 ， 按 照 第 一 步 的 方法 选中 五 个 节点 ， 再 依次 单 击 两 个 
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一 一 WEKA 应 月 
输出 节点 。 完 成 以 后 的 网 络 如 图 6.76 所 示 。 


6.76 ”完成 以 后 的 网 络 


完成 后 ， 可 以 单 击 Start 按钮 开始 训练 。 训 练 完 成 后 ， 可 以 参考 Error per Epoch 指标 ， 
如 果 对 效果 满意 ， 单 击 Accept 按钮 接受 修改 好 的 网 络 模型 。 
当然 ， 使 用 交互 式 的 图 形 方式 虽然 直观 ， 但 还 是 有 些 麻烦 。 通 过 设置 参数 的 方式 可 以 
一 步 达 到 上 述 目 标 。 打 开通 用 对 象 编辑 器 ， 设 置 MultilayerPerceptron 分 类 器 的 
hiddenLayers 参数 ， 将 该 参数 的 默认 值 由 “a” 修 改 为 “a,5”， 并 保持 其 他 参数 不 变 。 再 次 
启动 网 络 学 习 ， 可 以 看 到 ， 得 到 的 神经 网 络 框图 类 似 于 手工 编辑 得 到 的 图 6.76。 


2. 调整 参数 


使 用 探索 者 界面 ， 从 Weka 安装 目录 下 的 data 目录 中 加 载 ionosphere.arff 文件 。 切 换 
至 Classify 标签 页 ， 选 中 MultilayerPerceptron 分 类 器 ， 保 持 其 默认 参数 ， 保 持 测试 选项 为 
十 折 交 叉 验 证 ， 单 击 Start 按钮 启动 训练 及 评估 。 完 成 后 Weka 会 在 分 类 器 输出 区 域 输出 训 
练 和 评估 结果 。 限 于 篇 幅 ， 下 面 对 主 要 部 分 的 输出 进行 说 明 。 

首先 输出 的 部 分 主要 显示 各 神经 元 的 一 些 权重 (Weights) 和 阔 值 (Threshold) 。 可 以 看 
到 ， 这 里 对 应 的 是 神经 网 络 的 输出 节点 ， 其 Weights 分 布 对 应 隐藏 层 节点 的 权重 。 有 具体 输 
出 如 下 : 


Test mode: ”10-fold cross-validation 


一 =- Classifier model (full training set) — 


Sigmoid Node 0 
Inputs Weights 
Threshold 2.059883437903601 
Node 2 2.076233359394848 
Node 3 3.2183559170557805 
Node 4 -0.7017532303075542 
Node 5 -1.958275690496231 


Node 19 4.045989528132257 


然后 显示 输入 节点 的 权重 ， 输 出 如 下 : 


Sigmoid Node 2 

Inputs Weights 

Threshold -0.18027927909992883 

Attrib a01 -0.9694519022960929 

Attrib a02 0.016992161115539056 
Rttrib a03 -0.8999129576661208 
Attrib a04 -0.07380171922935379 
Attrib a05 0.1419345878469754 


Attrib a34 1.1459036574648676 
最 后 一 部 分 显示 各 个 评估 指标 ， 可 以 看 到 正确 分 类 的 实例 已 经 超过 90%， 分 类 效果 还 
是 不 错 的 。 输 出 如 下 : 


=—= Stratified cross-validation = 一 


一 Summary =— 

Correctly Classified Instances 320 91.1681 sg 
Incorrectly Classified Instances 31 8.8319 $% 
Kappa statistic 0.7993 

Mean absolute error 0.0938 

Root mean squared error 0.2786 

Relative absolute error 20.3738 $$ 

Root relative squared error 58.0756 $ 

Coverage of cases (0.95 level) 94.302 $% 

Mean rel. region size (0.95 level) 54.9858 $% 

Total Number of Instances 351 


调整 参数 是 个 很 繁杂 很 费时 间 的 工作 。MultilayerPerceptron 分 类 器 的 参数 很 多 ， 对 于 
不 同 数据 集 ， 要 将 参数 调整 到 一 个 可 接受 的 范围 内 不 是 一 件 容易 的 事 。 本 例 仅 对 Num Of 
Epochs、Momentum、Learming Rate 和 网 络 结构 进行 调整 ， 测 试 调整 参数 对 性 能 的 影响 。 

Num Of Epochs 参数 是 训练 的 迭代 次 数 ， 显 然 ，Num Of Epochs 参数 值 越 大 ， 训 练 花 
费 的 时 间 越 多 。 默 认 的 Num Of Epochs 参数 值 为 500， 分 别 将 其 修改 为 200 和 1000， 启 动 
训练 和 评估 ， 得 到 如 表 6.1 所 示 的 评估 数据 。 


表 6.1 修改 Num Of Epochs 参数 值得 到 的 结果 


构建 模型 时 间 / 秒 正确 分 类 的 实例 /% 
90.8832 


91.1681 
91.1681 


可 以 看 到 ， 构 建 模型 的 时 间 与 Num Of Epochs 参数 值 成 正比 ， 当 重复 迭代 训练 一 定 次 
数 后 ， 正 确 分 类 实例 的 比例 并 不 一 定 会 提升 ， 有 时 候 反而 会 造成 过 度 拟 合 。 


王 注意 :。 由 于 读者 的 计算 机 与 本 次 实验 的 计算 机 存在 速度 的 不 同 ， 并 且 实际 运算 中 随 
机 划分 训练 集 和 测试 集 使 得 选取 的 结果 可 能 会 存在 差异 ， 因 此 ， 如 果 读者 得 
到 同 表 6.1 不 太一 致 的 数据 ， 也 不 必 惊奇 ， 只 要 大 趋势 没有 实质 性 变化 就 可 
以 了 。 下 面 的 测试 道理 也 相同 ， 不 再 资 述 。 


Num Of Epochs 参数 值 均 方 根 误差 (RMSE 
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Momentum 参数 用 于 增加 波动 的 阻尼 。 如 果 认 为 训练 沿 着 最 优 的 “谷底 ”来 回 反弹 ， 
增 大 Momentum 参数 会 有 一 定 帮 助 。 但 是 ， 如 果 Momentum 参数 值 太 大 ， 其 结果 可 能 会 绕 
着 “谷底 ”转圈 ， 而 不 是 螺旋 式 使 误差 越 来 越 小 。 因 为 无 法 看 到 实际 的 拟 合 面 ， 只 能 通过 
试 错 法 来 调整 Momentum 参数 。 

下 面 先 恢复 MultilayerPerceptron 分 类 器 的 全 部 参数 为 默认 值 ， 然 后 再 修改 Momentum 
参数 ， 启 动 训练 和 评估 ， 得 到 如 表 6.2 所 示 的 评估 数据 。 


表 6.2 修改 Momentum 参数 值得 到 的 结果 


Momentum 参数 值 构建 模型 时 间 / 秒 正确 分 类 的 实例 /% 均 方 根 误差 (RMSE) 
0.1 3.86 91.7379 | 0.2710 
02 3.83 91.1681 0.2786 


91.4530 
91.4530 


可 以 看 到 ， 就 本 例 而 言 ， 修 改 Momentum 参数 对 评估 的 影响 有 限 。 

Leaming Rate 参数 用 于 控制 学 习 速 率 ， 它 决定 在 每 一 趟 ， 跳 跃 有 多 长 距离 。 如 果 该 值 
很 小 ， 改 变 网 络 权 重 的 过 程 就 需要 很 长 ; 但 如 果 该 值 过 大 ， 可 能 直接 跳 过 并 错过 最 优 地 
点 ， 到 达 另 一 个 地 方 。 想 象 一 下 如 下 场景 ， 假 如 你 穿越 高 山 ， 尝 试 找到 谷底 溪流 ， 你 会 观 
察 一 下 四 周 的 局 部 坡度 ， 面 对 下 坡 的 方向 闭 上 眼睛 。 走 路 的 步 幅 与 学 习 速 度 成 正比 ， 如 果 
步 幅 迈 得 过 大 ， 可 能 会 跨 过 小 溪 而 不 自觉 ， 从 而 到 达 对 面 的 斜坡 。 下 一 次 也 可 能 只 是 重复 
刚才 的 错误 ， 因 步 幅 太 大 而 无 法 找到 最 优 位 置 。 因 此 只 能 通过 试 错 法 进行 调整 。 

下 面 先 恢复 MultilayerPerceptron 分 类 器 的 全 部 参数 为 默认 值 ， 然 后 再 修改 Leaming 
Rate 参数 ， 启 动 训练 和 评估 ， 得 到 如 表 6.3 所 示 的 评估 数据 。 


表 6.3 修改 Learning Rate 参数 值得 到 的 结果 
Learning Rate 参数 值 构建 模型 时 间 / 秒 正确 分 类 的 实例 /% 均 方 根 误差 (RMSE 


01 91.1681 02838 
03 02786 


1.0 90.8832 0.2824 

可 以 看 到 ， 就 本 例 而 言 ， 修 改 Learning Rate 参数 对 评估 有 一 定 的 影响 ， 当 该 参数 过 大 
时 ， 由 于 较 难 找到 适合 的 权重 和 阔 值 ， 因 而 会 影响 正确 分 类 实例 所 占 的 比例 。 

最 后 ， 测 试 改变 网 络 结构 对 评估 的 影响 。 先 恢复 MultilayerPerceptron 分 类 器 的 全 部 参 
数 为 默认 值 ， 然 后 再 修改 hiddenLayers 参数 ， 启 动 训练 和 评估 ， 得 到 如 表 6.4 所 示 的 评估 
数据 。 

可 以 看 到 ， 改 变 网 络 结构 对 评估 性 能 有 一 定 影响 。 但 是 ， 让 人 伤心 的 是 ，BP 网 络 只 
能 学 习 一 些 参数 ， 而 无 法 自动 学 习 配 置 网 络 结构 ， 只 能 采用 试 错 法 去 寻找 一 种 符合 当前 数 
据 的 最 优 网 络 结构 。 


表 6.4 修改 hiddenLayers 参数 值得 到 的 结果 


hiddenLayers 参数 值 构建 模型 时 间 / 秒 正确 分 类 的 实例 /% 均 方 根 误差 (RMSE) 
a 3.83 91.1681 0.2786 


10 914530 02826 
10, 10 3.47 92.0228 0.2734 
10, 15 4.24 91.7379 0.2772 


6.3 文本 分 类 


自动 文本 分 类 也 简称 为 文本 (文档 ) 分 类 ， 是 指 在 给 定 分 类 体系 下 ， 根 据 文本 内 容 自 动 
确定 文本 类 别 的 过 程 。20 世纪 90 年 代 以 前 ， 占 主导 地 位 的 文本 分 类 方法 是 由 专业 人 员 手 
工 进行 分 类 。 人 工分 类 非常 费时 ， 效 率 非 常 低 。90 年 代 以 来 ， 众 多 的 统计 方法 和 机 器 学 习 
方法 开始 应 用 于 自动 文本 分 类 ， 文 本 分 类 技术 的 研究 引起 了 研究 人 员 的 极 大 兴趣 。 目 前 ， 
文本 分 类 主要 在 信息 检索 、Web 文档 自动 分 类 、 数 字 图 书馆 、 自 动 文 摘 等 多 个 领域 得 到 一 
些 应 用 。 

英文 文本 分 类 比较 直观 ， 一 般 使 用 StringToWordVector 过 滤器 将 文本 转换 为 一 种 称 为 
词 向 量 (word vectoD 的 数据 矩阵 ， 然 后 像 分 类 的 数据 集 那 样 使 用 分 类 器 。 相 比 于 英文 文本 
分 类 ， 中 文 文本 分 类 的 一 个 重要 的 差别 在 于 预 处 理 阶段 。 中 文 文本 需要 分 词 ， 不 像 英文 文 
本 的 单词 那样 已 有 空格 来 区 分 。 从 简单 的 查 词 典 的 方法 ， 到 后 来 的 基于 统计 语言 模型 的 分 
词 方法 ， 中 文 分 词 的 技术 已 趋 于 成 熟 。 本 书 使 用 下 Analyzer 工具 进行 分 词 ， 这 是 一 个 开 
源 的 基于 Java 语言 开发 的 轻 量 级 的 中 文 分 词 工具 包 。 

一 旦 经 过 预 处 理 将 中 文 文本 转换 为 词 向 量 ， 那 么 随后 的 文本 分 类 过 程 和 英文 文本 分 类 
相同 ， 也 就 是 说 ， 随 后 的 文本 分 类 过 程 独立 于 语种 。 因 此 ， 当 前 的 中 文 文本 分 类 主要 集中 
在 如 何 利 用 中 文本 身 的 一 些 特征 来 更 好 地 表示 文本 样本 。 

除了 上 文 所 说 的 将 文档 转换 为 词 向 量 模型 之 外 ， 可 能 还 要 根据 需要 选 做 移 除 停 用 词 、 
词 干 提取 、 词 频 统计 和 TF-IDF 计算 。 其 中 ， 移 除 停 用 词 是 指 删除 在 信息 检索 和 文本 挖掘 
中 没有 用 处 的 词 ， 例 如 ， 英 文中 的 “the、of、and” 等 。 移 除 停 用 词 有 两 大 作用 : 第 一 ， 
能 有 效 减少 数据 文件 的 大 小 ， 一 般 而 言 ， 停 用 词 占 20% 一 30% 的 总 词 量 ， 第 二 ， 能 提高 系 
统 的 效率 ， 因 为 停 用 词 无 用 ， 有 时 还 会 迷惑 系统 。 词 干 提取 是 简化 单词 的 技术 ， 它 将 单词 
转换 为 词 干 。 词 干 提取 能 匹配 相似 的 单词 ， 提 高 查 全 率 ， 从 而 提高 信息 检索 和 文本 挖掘 的 
有 效 性 ;， 另外， 词 干 提取 能 够 合并 相同 词 干 的 单词 ， 从 而 大 大 减 小 索引 的 大 小 。 

另外 ， 样 本 矢量 模型 有 多 种 表示 方式 ， 最 简单 的 方式 是 分 别 采用 1 和 0 来 表示 文档 中 
某 个 单词 的 有 和 无 ， 还 可 以 采用 词 频 表 或 词 逆向 文档 频率 表 来 表示 。 在 一 份 文档 中 ， 词 频 
(Term Frequency，TF) 指 的 是 某 个 给 定 的 单词 在 该 文档 中 出 现 的 次 数 ， 该 数字 通常 要 规范 
化 ， 以 防止 它 偏 向 长 文档 。TF-IDF(Term Frequency-Inverse Document Frequency) 是 一 种 用 
于 信息 检索 与 文本 分 类 的 常用 加 权 技 术 ， 它 是 一 种 用 于 评估 某 个 单词 对 于 一 个 文档 集 或 一 
个 语料库 中 的 其 中 一 份 文档 的 重要 程度 的 统计 方法 。 单 词 的 重要 性 与 它 在 文档 中 出 现 的 次 
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数 成 正比 ， 但 同时 与 它 在 语料库 中 出 现 的 频率 成 反比 。 
下 面 先 从 一 个 文本 分 类 的 简单 示例 开始 ， 介 绍 如 何 使 用 Weka 工具 来 进行 文本 分 类 。 


6.3.1 文本 分 类 示例 


本 节 完 成 一 个 简单 文本 分 类 的 实验 。 原 始 数据 是 文本 ， 首 先 需要 转换 成 适合 学 习 的 形 
式 ， 具 体 方法 是 根据 训练 语 料 中 的 所 有 文档 创建 一 个 词典 ， 使 用 Weka 的 无 监督 属性 过 滤 
器 StringToWordVector， 为 每 个 词 创建 一 个 数值 型 属性 。 转 换 后 ， 同 样 存在 类 别 属性 ， 也 
就 是 文档 的 类 别 标签 。 

StringToWordVector 过 滤器 假定 待 分 类 文本 的 属性 类 型 是 字符 串 类 型 ， 该 类 型 的 属性 
是 一 种 没有 预先 设 定 值 的 标 称 型 属性 。 过 滤 后 的 数据 会 将 该 文本 蔡 代为 一 组 固定 的 数值 型 
属性 ， 类 别 属 性 的 位 置 由 默认 的 最 末 变 成 最 前 ， 成 为 第 一 个 属性 。 
因此 ， 完 成 文档 分 类 的 第 一 步 是 创建 ARFF 格式 的 训练 集 和 测试 集 文 件 ， 其 中 必须 有 
一 个 字符 串 型 属性 以 容纳 文档 的 文本 。 有 具体 方法 就 是 在 ARFF 文件 的 头 部 使 用 @attribute 
document string 进行 声明 ， 这 里 的 document 为 属性 名 称 ; 另外 ， 还 需要 一 个 标 称 型 属性 作 
为 文本 的 类 别 属性 ， 这 里 的 类 别 属性 名 称 为 class， 是 一 个 二 元 (只 有 yes 和 no) 的 标 称 型 属 
性 。 这 样 ， 就 完成 了 训练 文档 和 测试 文档 的 建立 ， 分 别 如 数据 集 6.1 和 数据 集 6.2 所 示 。 


数据 集 6.1 TrainingDocuments.arff 
@relation ' 文 档 分 类 训练 集 ' 


@attribute document string 
@attribute class {yes,no} 


@data 


"奥运 会 篮球 比赛 和 世界 篮球 锦标 赛 的 比赛 场地 长 度 是 28 米 宽 15 米 '，yes 

"罚球 区 是 限制 区 加 上 以 罚球 线 中 点 为 圆心 以 1.80 米 为 半径 向 限制 区 外 所 面 的 半圆 区 域 '， 
yes 

"地 球 是 太阳 系 从 内 到 外 的 第 三 颗 行星 '，no 

"从 卫星 上 乌 喇 地 球 感受 前 所 未 有 的 视觉 冲击 '，no 

"篮球 运动 于 1891 年 起 源 于 美国 '，yes 

"游览 遥远 的 地 方 漫步 3D 森林 穿梭 时 空 回 到 过 去 '，no 


数据 集 6.2 TestDocuments.arff 
@relation ' 文 档 分 类 测试 集 ' 


@attribute document string 
@attribute class {yes,no} 


@data 
"篮球 运动 是 以 投篮 上 复 和 扣篮 为 中 心 的 对 抗 性 室内 体育 运动 之 一 '，? 


"浏览 这 些 令 人 惊叹 的 图 片 或 在 太空 中 飞 往 图 片 所 对 应 的 位 置 '"，? 
"篮球 运动 是 1896 年 前 后 由 天 津 中 华 基督 教 青年 会 传 入 中 国 的 '，? 


© 


"您 可 以 探索 由 Google 地球 和 支持 合作 伙伴 创建 的 包含 大 量 景点 视频 和 图 像 的 资源 库 '，? 


训练 集 和 测试 集 文 本 的 document 属性 描述 篮球 和 Google 地 球 的 内 容 ， 类 别 标签 为 
yes 的 是 篮球 运动 的 说 明 ， 类 别 标签 为 no 的 是 Google 地 球 的 说 明 。 由 于 不 打算 一 下 就 涉 
及 中 文 分 词 ， 以 免 将 情况 复杂 化 ， 这 里 先 用 空格 符号 对 文档 进行 了 手工 分 词 。 测 试 集 文件 
的 类 别 属性 标签 使 用 “?” 符 号 表示 其 值 缺失 。 

现在 使 用 StringToWordVector 过 滤器 对 训练 集 文件 进行 预 处 理 ， 然 后 构建 J48 决策 
树 。 启 动 Weka 探索 者 界面 ， 加 载 TrainingDocuments.arff 文件 ， 可 以 看 到 数据 集 仅 有 两 个 
属性 。 然 后 单 击 Filter 选项 组 中 的 Choose 按钮 ， 选 中 StringToWordVector 过 滤器 ， 保 持 默 
认 选 项 不 变 ， 单 击 Apply 按钮 实施 过 滤 ， 再 将 类 别 属 性 设 为 第 一 个 属性 (class)。 过 滤 后 的 
结果 如 图 6.77 所 示 ， 可 见 ， 预 处 理 将 原来 的 数据 集 由 2 个 属性 转换 为 61 个 属性 ， 每 个 属 
性 的 名 称 为 文档 文本 里 的 单词 。 
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6.77” 预 处 理 结果 


单 击 Preprocess 标签 页 中 的 Edit 按钮 ， 可 以 看 到 当前 的 数据 集 ， 如 图 6.78 所 示 。 可 
见 ，StringToWordVector 过 滤器 创建 一 个 词 向 量 ， 每 个 文档 中 如 果 含 有 某 个 单词 ， 对 应 的 
属性 值 就 为 0， 否则 为 1 。 


图 6.78 ” 预 处 理 后 的 数据 集 


单 击 Preprocess 标签 页 中 的 Save 按钮 ， 将 当前 数据 集 保存 为 TrainingDocuments- 
preprocessed.arff 文件 ， 使 用 任意 文本 编辑 器 打开 该 文件 进行 研究 ， 其 内 容 如 数据 集 6.3 所 
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示 。 研 究 时 要 注意 三 个 地 方 : 第 一 ， 关 系 名 称 为 预 处 理 前 的 关系 名 加 上 预 处 理 的 过 滤器 名 
称 及 其 选项 ， 第 二 ， 字 符 串 型 属性 转换 为 数值 型 的 矩阵 ， 类 别 属性 只 是 将 位 置 变 为 第 一 个 
属性 ， 其 他 不 变 ; 第 三 ， 产 生 的 文件 是 压缩 格式 的 ARFF， 也 就 是 只 显示 不 为 0 的 属性 
值 。 这 里 以 第 一 个 实例 为 例 进行 解释 ，{2 1.4 1,6 1.16 1,18 1,20 1.21 1,24 1,25 1.26 1,27 1.28 
1,34 1,35 1} 表 示 第 2 个 属性 值 为 1， 第 4 个 属性 值 为 1， 以 此 类 推 。 注 意 到 这 里 所 说 的 第 
个 ， 是 指 以 0 为 基 ( 即 从 0 开始 计数 ) 的 属性 索引 ， 不 同 于 图 6.78 所 示 的 以 1 为 基 的 属性 索 
引 。 比 如 ， 类 别 属性 在 图 6.78 中 显示 为 第 1 个 属性 ， 但 在 数据 集 6.3 中 却 表示 为 第 0 个 属 
性 。 而 且 因为 是 压缩 表示 ， 如 果 类 别 属性 标签 为 yes， 这 时 第 0 个 类 别 的 离散 值 就 是 0， 所 
以 不 显示 。 


数据 集 6.3 TrainingDocuments-preprocessed.arff 


@relation ' 文 档 分 类 训练 集 -weka.filters.unsupervised.attribute.stringToWordVector- 
R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullSstemmer-stopwords— 
handlerweka.core.stopwords.Null-Ml-tokenizerweka.core.tokenizers .WordTokenizer 
“Geliniters NM WeMaMWVt re WM" 3IN 


@attribute class {yes,no} 

@attribute 1 numeric 

Q@attribute 15 numeric 

Q@attribute 1891 numeric 

Q@attribute 28 numeric 

Q@attribute 3D numeric 

Q@attribute 80 numeric 

Qattribute 上 numeric 

Qattribute 世界 numeric 

@attribute 中 点 numeric 

@data 

入 Ld Ly6. L161, 18 1,20 L121 1,24 1,25 ,26 L127 1.20.1,34 1;35 HW 
1 F517 Le E10 LLL ly L713 1 14 1)15 L127 19 1)23 24 26. U8 
1,29 1,30 1,36 1} 

{0 no,19 1,24 1,26 1,39 1,40 1,42 1,47 1,48 1,55 1,56 1} 

{0 no,26 1,38 1,39 1,41 1,43 1,44 1,47 1,49 1,57 1,60 1} 

13 9 Ts T2703 1932 ,3 1i 

{0 no,26 1,37 1,45 1,46 1,50 1,51 1,52 1,53 1,54 1,58 1,59 1} 


上 述 预 处 理 仅 判 断 单词 是 否 出 现 ， 并 不 关心 该 单词 出 现 的 次 数 ( 即 词 频 )。 如 果 想 得 到 
单词 的 出 现 次 数 ， 可 将 StringToWordVector 过 滤器 的 outputWordCounts 选项 设置 为 True， 
再 次 过 滤 ， 结 果 如 图 6.79 所 示 。 由 于 单词 “篮球 ”出 现 过 两 次 ， 因 此 对 应 的 属性 值 为 
2.0。 

如 果 再 将 过 滤器 的 minTermFreq 选项 由 默认 的 1 更 改 为 2， 可 以 看 到 ， 结 果 筛 选 掉 出 
现 频 率 低 的 单词 ， 即 出 现 次 数 低 于 两 次 的 单词 ， 如 图 6.80 所 示 。 这 样 ， 属 性 数量 就 由 原来 
的 61 个 减少 到 12 个 。 这 12 个 属性 中 ， 还 有 几 个 和 文本 分 类 关系 不 大 的 单词 ， 如 “为 ” 
“于 ”“ 以 ”“ 是 ”“ 的 ”等 ， 可 以 通过 选取 停 用 词 将 这 些 单 词 剔 出 。 
StringToWordVector 过 滤器 可 以 通过 更 改 stopwordsHandler 选项 来 设置 停 用 词 。 


6.80 ”筛选 掉 出 现 频率 低 的 单词 


新 版 本 的 Weka 变更 了 对 停 用 词 的 处 理 ， 原 来 的 stopwords 选项 更 改 为 
stopwordsHandler 选项 。 下 面 用 实例 说 明 如 何 使 用 停 用 词 文件 。 

新 建 一 个 名 称 为 stopwords.txt 的 文本 文件 ， 用 任意 文本 编辑 工具 打开 进行 编辑 ， 一 个 
停 用 词 一 行 ， 编 辑 完成 后 保存 为 UTF-8 编码 格式 。 然 后 ， 将 StringToWordVector 过 滤器 的 
stopwordsHandler 选项 更 改 为 WordsFromFile， 单 击 WordsFromFile 选项 ， 将 stopwords 选 
项 设置 为 前 面 建立 的 stopwords.txt 文件 ， 如 图 6.81 所 示 。 请 读者 自行 验证 ， 再 次 过 滤 后 是 
和 否 筛选 掉 自 定义 的 停 用 词 。 

经 过 上 面 的 预 处 理 ， 文 本 分 类 就 和 一 般 的 分 类 问题 没有 什么 太 多 的 区 别 了 。 但 是 ， 要 
注意 的 是 ， 训 练 集 和 测试 集 不 能 单独 进行 预 处 理 ， 否 则 会 由 于 形成 的 词典 不 兼容 而 导致 训 
练 好 的 模型 不 能 对 测试 集 进行 预测 。 解 决 这 个 问题 有 两 种 办 法 ， 一 种 是 使 用 第 7 章 将 要 介 
绍 的 批量 过 滤 ， 另 一 种 就 是 使 用 元 分 类 器 。 这 里 使 用 第 二 种 方法 ， 即 使 用 FilteredClassifier 
元 分 类 器 。 具 体 方法 是 : 切换 至 Classify 标签 页 ， 单 击 Classifier 选项 组 中 的 Choose 按钮 
选择 FilteredClassifier 元 分 类 器 ， 单 击 Choose 按钮 右边 的 文本 框 ， 在 通用 对 象 编辑 器 中 选 
择 默认 的 J48 决策 树 作为 基 分 类 器 ， 选 择 StringToWordVector 作为 元 分 类 器 的 过 滤器 ， 
如 图 6.82 所 示 。 由 于 已 经 在 元 分 类 器 中 使 用 了 过 滤器 ， 因 此 一 定 要 在 Preprocess 标签 页 中 
取消 前 面 使 用 StringToWordVector 的 过 滤 操 作 ， 单 击 一 次 Undo 按钮 即 可 取消 过 滤 操 作 。 

然后 ， 在 Test options 选项 组 中 ， 选 中 Supplied test set 单 选 按钮 ， 单 击 Set 按钮 ， 选 择 
前 面 创建 的 TestDocuments.arff 文件 作为 测试 集 。 最 后 ， 单 击 More options 按钮 ， 在 弹出 的 
Classifier evaluation options 对 话 框 中 ， 单 击 Output predictions 选项 后 的 Choose 按钮 ， 选 择 
Plaintext 模式 输出 预测 。 单 击 Start 按钮 启动 元 分 类 器 ， 结 果 如 图 6.83 所 示 。 

可 以 看 到 ， 生 成 的 决策 规则 为 “篮球 <= 0: no” 和 “篮球 > 0: yes”， 比 较 合 理 。 且 
对 测试 集 的 四 条 实例 进行 了 预测 ， 结 果 符 合 预期 ， 读 者 可 自行 验证 。 
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6.83 ”文本 分 类 运行 结果 


6.3.2 ”分 类 真实 文本 


上 一 节 使 用 简单 的 数据 集 展示 了 文本 分 类 的 基本 方法 ， 要 评估 和 进行 文本 分 类 实验 ， 
最 好 使 用 标准 的 公开 数据 集 ， 这 样 才 可 以 参照 同行 的 研究 结果 。 通 讯 社 的 标准 报道 集 广泛 
用 于 评估 文本 分 类 器 的 性 能 。ReutersCorn-train arff 和 ReutersGrain-train.arff 都 是 Weka 自 
带 的 数据 集 ， 这 两 个 训练 集 都 来 自 路 透 社 的 报道 集 ， 对 应 的 测试 集 为 ReutersCorn-test.arff 
和 ReutersGrain-testarff。 事 实 上 ，corm( 玉 米 ) 和 grain( 谷 物 ) 数 据 集 里 的 实际 文档 相同 ， 只 是 
类 别 标签 不 同 。 在 玉米 数据 集中 ， 与 玉米 相关 的 报道 的 类 别 标签 都 为 1， 其 余 的 类 别 值 为 
0。 实 验 的 目标 是 要 构建 一 个 分 类 器 ， 以 确定 “与 玉米 相关 ”的 文档 。 在 谷物 数据 集中 ， 
与 谷物 相关 的 报道 的 类 别 标签 都 为 1， 其 余 的 类 别 值 为 0。 实 验 的 目标 是 找 出 “与 谷物 相 
关 ” 的 文档 。 

文本 分 类 一 般 都 要 进行 预 处 理 ，Weka 的 对 应 预 处 理工 具 是 StringToWordVector 过 滤 
器 ， 它 默认 不 使 用 任何 停 用 词 。 分 类 英文 文本 一 般 可 以 指定 使 用 默认 停 用 词 ， 即 Weka 自 
带 的 默认 停 用 词类 。 在 简单 命令 行 界面 中 输入 如 下 命令 就 可 以 看 到 默认 的 停 用 词 : 


java weka.core.Stopwords -p 


要 使 用 默认 停 用 词 ， 只 需 将 StringToWordVector 过 滤器 的 stopwordsHandler 选项 设置 
为 Rainbow 即 可 。 

下 面 使 用 带 StringToWordVector 过 滤器 的 FilteredClassifier 元 分 类 器 对 ReutersCorn- 
train 和 ReutersGrain-train 训练 集 分 别 构建 分 类 模型 ， 并 对 每 一 个 训练 集 分 别 将 基 分 类 器 设 
为 J48 和 NaiveBayesMultinomial， 然 后 使 用 对 应 的 测试 集 对 分 类 模型 进行 评估 ， 文 本 分 类 
的 准确 率 如 表 6.5 所 示 。 


表 6.5 不 同 基 分 类 器 的 FilteredClassifier 元 分 类 器 对 路 透 社 数据 集 的 评估 结果 


训练 集 测试 集 基 分 类 器 准确 率 
| ReutersCorn-train.arff ReutersCorn-test.arff J48 97.3510% 
| ReutersCorn-train.arff ReutersCorn-test.arff NaiveBayesMultinomial 93.7086% 
96.3576% 
90.7285% 


已 
SE 


ReutersGrain-train.arff ReutersGrain-test.arff J48 


ReutersGrain-train.ar 任 ReutersGrain-test.arff NaiveBayesMultinomial 


从 结果 上 来 看 ， 基 分 类 器 为 J48 比 NaiveBayesMultinomial 的 分 类 准确 率 要 高 一 些 。 如 
果 只 看 重 分 类 准确 率 ， 那 么 肯定 应 该 选 J48 作为 基 分 类 器 。 

但 是 ， 除 了 分 类 准确 率 这 个 常用 的 评估 指标 以 外 ， 在 文本 分 类 中 还 使 用 其 他 的 评估 指 
标 ， 如 真 阳 性 率 (TPR)、 假 阳性 率 (FPR)、 真 阴性 率 (TNR)、 假 了 明 性 率 (FNR)、 查 准 率 
(Precision)、 查 全 率 (Recall) 和 综合 评价 指标 F-measure。 表 6.6 中 的 前 面 四 个 指标 直接 来 自 
前 面 对 四 次 实验 的 评估 结果 里 的 混淆 和 矩阵， 后 面 的 三 个 指标 需 根 据 如 下 计算 公式 计算 得 
到 ， 读 者 可 自行 验证 


x100% 


> TP 
Precision = 
TP+FP 


了 


Recall = x100% 
TP+FN 


2 x Recall x Precision 
Recall + Precision 
从 表 6.6 可 知 ， 单 从 查 准 率 来 看 ， 第 2 次 实验 好 于 第 1 次 ， 第 4 次 实验 好 于 第 3 次 ， 
在 查 准 率 指标 上 ，NaiveBayesMultinomial 分 类 器 胜 过 J48。 但 是 ， 在 查 全 率 和 F-measure 
指标 上 ，J48 分 类 器 仍然 胜出 。 由 于 F-measure 是 查 准 率 和 查 全 率 的 综合 指标 ， 可 信和 度 要 
高 一 些 ， 因 此 可 以 推断 ， 选 择 J48 作为 基 分 类 器 的 性 能 要 优 于 NaiveBayesMultinomial 分 
类 器 。 


F-Measure = 


表 6.6 其 他 评估 指标 


F-Measure 
0.9879 | 0.9862 
0.9665 
0.9802 
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下 一 节 将 使 用 Weka 的 可 视 化 工具 ， 对 上 述 四 次 实验 的 结果 进行 分 析 。 


6.3.3 ”手把手 教 你 用 

1. 真实 文档 分 类 的 可 视 化 分 析 

本 示例 接着 对 上 一 节 的 真实 文档 分 类 进行 可 视 化 分 析 。 

Weka 支持 各 种 可 视 化 分 析 。 前 面 实验 的 分 类 器 输出 中 也 同样 给 出 了 ROC 曲线 和 
ROC 曲线 下 面积 (AUC)， 这 是 根据 分 类 器 产生 的 预测 排名 ， 在 测试 数据 中 随机 挑选 正 例 的 
概率 高 于 随机 挑选 负 例 的 概率 的 程度 指标 。 最 佳 的 输出 是 所 有 的 正 例 样本 的 预测 概率 排名 
都 高 于 所 有 的 负 例 样本 ， 这 样 AUC 为 1; 最 差 的 情形 是 AUC 为 0; 在 排名 完全 随机 的 情 
况 下 ，AUC 为 0.5， 也 就 是 ROC 曲线 是 由 点 (0, 0) 和 点 (1, 1) 连 线形 成 的 ， 这 时 的 ROC 曲线 
实际 代表 的 是 随机 分 类 器 ， 如果 AUC 低 于 0.5， 说 明 分 类 器 的 性 能 比 随机 分 类 器 还 差 。 

现在 来 看 前 文 的 四 次 实验 的 ROC 曲线 和 AUC。 在 Weka 探索 者 界面 的 Classify 标签 
页 中 ， 右 击 结果 列表 中 的 条 目 ， 在 弹出 的 快捷 菜单 中 选择 Visualize threshold curve 菜单 


项 ， 并 选择 0( 类 别 值 为 0 表示 正 例 )，Weka 弹出 如 图 6.84 所 示 的 可 视 化 阔 值 曲线 窗口 ， 图 
中 的 Area under ROC 就 是 AUC 指标 。 


{Weka Classifier Visualize: ThresholdCurve. (Class value 0) > 一 | 


Plot Ores wnder MC = 0.8943) 


Chass eolour 


图 6.84 ROC 曲线 


对 于 ROC 曲线 ， 有 以 下 四 个 要 点 需要 注意 : 第 一 ，ROC 曲线 总 是 单调 上 升 的， 第 
二 ，ROC 曲线 总 会 通过 点 (0.0) 和 点 (1,1); 第 三 ，ROC 曲线 的 最 好 的 点 在 左上 角 ， 曲 线 越 
靠近 左上 角 越 好 ， 最 差 的 点 在 右 下 角 ; 第 四 ，AUC 越 大 ， 说 明 分 类 器 的 性 能 越 好 。 

为 了 方便 比较 ， 将 四 次 实验 的 ROC 曲线 都 放 在 一 起 ， 如 图 6.85 所 示 。 从 图 中 容易 看 
出 ， 就 ROC 曲线 和 AUC 指标 来 看 ，NaiveBayesMultinomial 分 类 器 的 性 能 远 比 J48 好 。 其 
中 图 6.85(c) 和 图 6.85(d) 相 差 不 大 ， 但 图 6.85(a) 和 图 6.85(b) 相 差 很 大 。 

实验 结果 肯定 让 读者 心中 很 疑惑 ， 为 什么 ROC 曲线 形状 如 此 完美 的 
NaiveBayesMultinomial 会 在 分 类 准确 度 性 能 上 输 给 J48? 如 何 解释 ROC 和 分 类 准确 度 这 两 
种 指标 的 不 一 致 ? 

也 许 看 一 看 测试 集 的 类 别 分 布 就 能 看 出 一 点 端倪 。 图 6.86 所 示 为 路 透 社 两 个 测试 集 的 
类 别 分 布 ， 可 以 看 到 ， 正 例 和 负 例 的 分 布 极其 不 平衡 ， 类 别 值 为 0 的 正 例 占据 了 绝对 的 
统治 地 位 。 


Plot (Area under ROC = 0.6943) Plot (hrea under RDC = 0.9523) 
Wn 
(a) ReutersCorn+J48 (b) ReutersCorm+NaiveBayesMultinomial 
Plot (Area under ROC = 0.9056) Plot (Area under ROC = 0.9726) 


ele 


| 


(c) ReutersGrain+J48 (d) ReutersGrain+NaiveBayesMultinomial 


6.85 ”四 次 实验 的 ROC 曲线 


Selected attribute Selected nttribute 
Yane: class-att Type: Nominal Tane: class-att Type: Joninal 
Nissing: 0 (0) Distinet: 2 Vnigue: 0 (0%) Nissing: 0 (0%) Distinet: 2 Vnigue: 0 (0%) 
jw Label Count Weieht I Label Count Weight 
| 1|0 |ss0 |580.0 | 1l0 1547 |547.0 
[ 2h 2 24.0 [ a 司 lsi.o 
(a) ReutersCorn-test.arff (b) ReutersGrain-test.arff 


6.86 ”路 透 社 两 个 测试 集 的 类 别 分 布 


由 于 TPR 下 、FPR= 一 下 ， 可 以 计算 出 上 述 两 个 差别 很 大 实验 的 真 阳性 率 和 


PHFN FP+IN 


假 阳 性 率 ， 如 表 6.7 所 示 。 从 表 中 可 以 看 到 ， 第 一 次 实验 的 TPR 比 第 二 次 实验 的 TPR 在 数 
值 上 大 得 并 不 多 ， 但 在 FPR 的 上 却 相 差 很 大 。 再 看 看 这 两 次 实验 的 FN 指标 ， 这 是 错 判 为 


负 例 的 正 例 ，7 与 32 相差 4 倍 以 上 ， 但 由 于 正 例 的 绝对 值 很 大 (TP+FN=580)， 所 以 ， 


TPR 的 计算 公式 ， 很 小 的 FN 值 对 TPR 的 影响 力 较 小 ， 就 掩盖 了 错 判 的 真实 情况 。 因 


一 般 来 说 ，ROC 不 太 适 合 应 用 在 极端 不 平衡 的 数据 集中 。 


表 6.7 ReutersCorn 的 TPR 和 FPR 


按照 
此 ， 


序 号 FPR 
1 0.3750 
0.2500 


现在 查看 前 两 次 差别 最 大 的 实验 的 ROC 曲线 。 回 到 Classify 标签 页 ， 分 别 右 击 结 


果 列 
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表 中 的 前 两 个 条 目 ， 在 弹出 的 快捷 菜单 中 选择 Visualize threshold curve 菜单 项 ， 并 选择 


1，ROC 


1 线 如 图 6.87 所 示 。 可 以 看 到 ， 虽 然 图 6.87(b) 所 示 的 ROC 曲线 和 图 6.85(b) 中 的 


差别 不 是 很 大 ， 但 图 6.87(a) 所 示 的 ROC 曲线 却 和 图 6.85(a) 中 有 明显 的 不 同 。 前 者 的 TPR 


在 开始 的 


对 候 陡然 上 升 ， 但 到 达 一 定 值 的 时 候 开 始 平坦 向 右 ， 说 明 此 时 假 阳 性 率 FPR 增加 


很 快 ， 最 后 TPR 再 次 稍 快 地 上 升 ， 后 者 的 TPR 在 开始 的 时 候 上 升 很 慢 ， 然 后 上 升 较 快 ， 
最 后 很 大 一 段 TPR 开始 平坦 向 右 ， 此 时 的 FPR 应 该 增加 很 快 。 因 此 ， 尽 管 这 两 者 的 图 形 


相差 很 远 ， 


但 AUC 的 值 完 全 相等 。 
Plot (rea under ROC = 0.6943) Plot (Area under ROC = 0.9523) 
/ 
(a) ReutersCorn+J48 (b) ReutersCorn+NaiveBayesMultinomial 


6.87 ”差别 最 大 的 ROC 曲线 (类 别 为 1) 


除 ROC 曲线 外 ， 还 可 以 画 出 其 他 的 阔 值 曲线 图 ， 如 果 在 ROC 曲线 图 里 将 卫 坐 标 设 为 
查 全 率 (Recall)， 将 了 坐标 设 为 查 准 率 (Precision) ， 这 时 的 曲线 称 为 Precision-Recall 
Curve( 查 准 率 - 查 全 率 曲线 )， 如 图 6.88 所 示 。 
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图 6.88 查 准 率 - 查 全 率 曲线 


为 了 方便 比较 ， 同 样 将 四 次 实验 的 查 准 率 - 查 全 率 曲线 都 放 在 一 起 ， 如 图 6.89 所 示 。 
对 于 查 准 率 - 查 全 率 曲线 ， 有 以 下 四 个 要 点 需要 注意 : 第 一 ， 查 准 率 - 查 全 率 曲线 不 会 总 是 


单调 上 升 ， 
小 时 ， 就 


因为 TP 上 升 ，FP 上 升 ， Tp 既 可 以 上 升 ， 也 可 以 下 降 ， 第 二 ， 当 查 全 率 很 


希望 查 准 率 能 达到 很 大 的 值 ， 以 免检 索 出 很 多 无 关 材 料 ， 从 这 个 角度 出 发 ， 


6.89(a) 中 的 曲线 比 图 6.89(b) 中 的 好 ， 图 6.89(c) 中 的 曲线 比 图 6.89(d) 中 的 好 ; 第 三 ， 与 
ROC 曲线 不 同 ， 查 准 率 - 查 全 率 曲线 最 好 的 点 在 右上 角 ， 曲 线 越 靠 近 右 上 角 越 好 ， 


AUPRC(Area Under the Precision-Recall Curve， 查 全 率 - 查 准 率 曲线 下 面积 ) 是 一 种 替代 的 统 


计 总 结 指标 ， 尤 其 在 信息 检索 领域 ， 更 受 领 域 人 士 青 睐 ; 第 四 ， 当 横 坐 标 查 全 率 等 于 1 
时 ， 纵 坐标 查 准 率 在 数值 上 应 该 等 于 真实 正 例 数量 与 全 体 实 例 数量 之 比 ， 也 就 是 说 ， 对 于 
ReutersCorn， 最 终 的 查 准 率 =$80/(580+24)=0.9603 ， 而 对 于 ReutersGrain， 最 终 的 查 准 率 
=547/(547+57)=0.9056。 因 此 图 6.89 中 ， 四 条 曲线 的 最 右 端 都 落 在 纵 坐标 非常 接近 1 的 
位 置 。 
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流 Qo 
(a) ReutersCorn+J48 (b) ReutersCorn+NaiveBayesMultinomial 
Et wee Plot 
(c) ReutersGrain+J48 (d) ReutersGrain+NaiveBayesMultinomial 


图 6.89 ”四 次 实验 的 查 准 率 - 查 全 率 曲 线 


2. 文本 分 类 的 优化 
使 用 默认 选项 ，StringToWordVector 过 滤器 只 是 根据 单词 是 否 出 现在 文档 中 ， 决 定 转 
换 后 的 数据 集中 的 词典 对 应 的 属性 值 是 1 还 是 0。 和 其 他 过 滤器 一 样 ，StringToWordVector 
过 滤器 还 有 很 多 选项 可 以 设置 ， 调 整 这 些 选项 可 以 优化 文本 分 类 的 性 能 。 主 要 选项 如 下 。 
e ”outputWordCounts( 输 出 单词 计数 ): 输出 单词 计数 ， 而 不 是 表示 单词 存在 与 否 的 布 
尔 值 1 或 0。 
e ”IDFTransform(IDF 转换 ): 设置 是 否 将 一 个 文档 中 的 词 频 转换 为 方 xlog( 文 档 数量 / 
含有 词 i 的 文档 数量 )。 其 中 , 方 为 词 在 文档 (实例 )7 中 出 现 的 频率 。 
e@ ”TFTransform(TF 转换 ): 设置 是 否 将 词 频 转换 为 log(1+)。 其 中 ， 太 为 词 i 在 文档 
(实例 )7 中 出 现 的 频率 。 如 果 上 述 两 个 选项 都 设置 为 True， 词 频 就 转换 为 TF x 
IDF 值 。 
e ”stemmer( 词 干 分 析 器 ): 用 户 可 以 选择 用 于 单词 的 词 干 提取 算法 。 
e ”stopwordsHandler( 停 用 词 处 理 器 ): 设置 所 使 用 的 停 用 词 处 理 器 ，Null 表示 不 使 用 
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停 用 词 。 

e ”tokenizer( 分 词 器 ): 用 户 可 以 选择 产生 单词 的 分 词 器 。 

面 对 如 此 多 的 选项 ， 读 者 可 以 尝试 一 下 手工 改变 一 些 选项 ， 以 获得 更 好 的 分 类 性 能 。 
但 显然 这 个 工作 烦琐 而 费时 ， 很 难 赁 手工 方式 找到 一 个 优化 的 参数 空间 。 下 面 采 用 另 一 种 
思考 方式 ， 假 设 已 经 使 用 StringToWordVector 过 滤器 将 原始 文档 转换 为 适合 数据 分 类 的 词 
向 量 数据 矩阵， 不 是 所 有 的 属性 ( 即 单词 ) 对 文本 分 类 都 一 样 重要 ， 很 多 单词 对 于 区 分 文章 
的 主题 并 没有 什么 关系 。 因 此 ， 如 果 采 用 一 种 方式 能 够 删除 用 处 不 大 的 属性 ， 那 么 应 该 能 
够 提高 文本 分 类 的 效率 。 

具体 实验 步骤 是 ， 在 探索 者 界面 的 Preprocess 标签 页 中 ， 选 择 ReutersCorn-train.arff 文 
件 ， 然 后 切换 至 Classify 标签 页 ， 仍 然 选择 FilteredClassifier 元 分 类 器 。 单 击 Classifier 选 
项 组 中 的 文本 框 ， 打 开通 用 对 象 编辑 器 对 话 框 ， 仍 然 将 filter 选项 设置 为 
StringToWordVector， 保 持 默认 选项 。 然 后 ， 单 击 classifier 选项 后 的 Choose 按钮 ， 选 择 基 
分 类 器 为 AttributeSelectedClassifier， 如 图 6.90 所 示 。 
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6.90 设置 FilteredClassifier 选项 


下 一 步 ， 单 击 图 6.90 所 示 对 话 框 中 classifier 选项 后 的 文本 框 ， 在 通用 对 象 编辑 器 对 话 
框 中 ， 设 置 classifier 选项 为 NaiveBayesMultinomial ， 设 置 evaluator 选项 为 
InfoGainAttributeEval， 设 置 search 选项 为 Ranker， 全 都 保持 默认 设置 ， 如 图 6.91 所 示 。 
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图 6.91 设置 AttributeSelectedClassifier 选项 


关闭 两 个 通用 对 象 编辑 器 对 话 框 。 在 Classify 标签 页 的 Test options 选项 组 中 ， 设 置 测 
试 策略 为 Supplied test set， 单 击 Set 按钮 ， 设 置 测试 集 为 ReutersCom-test.arff 文件 。 最 
后 ， 单 击 Start 按钮 启动 评估 ， 运 行 结 果 如 图 6.92 所 示 。 
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图 6.92 ”运行 结果 
可 以 看 到 ， 当 前 的 分 类 准确 率 为 93.7086%， 相 对 于 表 6.5 中 几乎 同等 条 件 下 的 第 二 次 
实验 结果 93.7086% 来 说 ， 并 没有 任何 提高 。 
现在 来 调整 AttributeSelectedClassifier 元 分 类 器 的 search 选项 。 按 照 前 文 所 述 的 方法 ， 
打开 图 6.91 所 示 的 对 话 框 ， 单 击 search 选项 后 的 文本 框 ， 将 numToSelect 选项 由 -1 改 为 
50， 也 就 是 筛选 后 保留 50 个 属性 ， 如 图 6.93 所 示 。 
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图 6.93 更 改 numToSelect 选项 
再 次 关闭 所 有 的 通用 对 象 编辑 器 对 话 框 ， 单 击 Start 按钮 启动 评估 ， 运 行 结果 显示 当前 
的 分 类 准确 率 已 经 提高 至 95.5298%。 重 复 上 述 过 程 ， 将 numToSelect 选项 改 为 表 6.8 中 第 
一 行 里 的 数值 ， 然 后 将 得 到 的 分 类 准确 率 填 入 表 6.8 所 示 的 第 二 行 中 。 


表 6.8 更改 numToSelect 选项 对 分 类 准确 率 的 影响 


numToSelect 选项 -1 50 30 20 10 有 
分 类 准确 率 93.7086% | 95.5298% | 97.5166% | 98.5099% | 99.1722% | 99.0066% 


不 难看 出 ， 将 numToSelect 选项 设置 为 10 附近 的 时 候 ， 分 类 准确 率 达 到 最 高 值 99% 以 
上 ， 结 果 令 人 满意 。 
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6.4 时 间 序 列 分 析 及 预测 


时 间 序 列 是 按时 间 排 序 的 一 组 随机 变量 ， 国 内 生产 总 值 (GDP)、 居 民 消费 价格 指数 
(CPD、 上 证 指数 、 利 率 、 汇 率 等 都 是 时 间 序 列 。 时 间 序 列 的 时 间 间 隔 可 以 是 分 钟 ( 如 高 频 
金融 数据 )， 可 以 是 日 、 周 、 月 、 季 度 、 年 ， 甚 至 更 大 的 时 间 单 位 。 

时 间 序 列 分 析 是 使 用 统计 技术 来 建立 模型 并 解释 一 个 随时 间 变 化 的 一 系列 数据 点 的 过 
程 。 时 间 序 列 预测 是 在 已 知 过 去 事件 的 基础 上 ， 使 用 模型 对 未 来 事件 进行 预测 的 过 程 。 时 
间 序列 数据 有 一 个 自然 的 时 间 顺 序 ， 这 不 同 于 典型 的 数据 挖掘 和 机 器 学 习 的 应 用 程序 ， 典 
型 的 数据 挖掘 和 机 器 学 习 中 每 个 数据 点 都 是 一 个 需要 学 习 的 独立 的 概念 样本 ， 且 数据 集 内 
数据 点 的 顺序 并 不 重要 。 时 间 序 列 应 用 程序 的 典型 例子 包括 容量 规划 、 库 存 补 货 、 销 售 预 
测 ， 以 及 未 来 人 员 配备 水 平 。 

现在 ，Weka 3.7.3 及 更 高 版 本 已 经 配备 了 一 个 专门 的 时 间 序 列 分 析 环 境 ， 可 以 开发 、 
评估 和 可 视 化 预测 模型 。 该 环境 以 Weka 探索 者 界面 标签 页 插件 的 形式 提供 ， 默 认 并 不 与 
分 发 包 一 起 捆绑 ， 如 果 需 要 ， 可 以 通过 包 管 理 器 进行 安装 。Weka 时 间 序 列 框架 采用 一 种 
机 器 学 习 和 数据 挖掘 的 方法 来 对 时 间 序 列 建 模 ， 将 数据 转换 为 标准 命题 学 习 算法 可 以 处 理 
的 形式 。 通 过 删除 输入 样本 中 的 时 间 顺 序 ， 可 以 使 用 附加 的 输入 字段 对 时 间 依 赖 性 进行 编 
码 ， 这 些 字段 有 时 被 称 为 “lagged”( 滞 后 ) 变 量 。 也 能 自动 计算 其 他 字段 ， 以 使 算法 能 对 趋 
势 性 和 季节 性 进行 建 模 。 当 数据 完成 转换 后 ， 任 意 的 Weka 回归 算法 都 可 以 应 用 到 学 习 模 
型 。 应 用 多 元 线性 回归 是 一 种 显而易见 的 选择 ， 当 然 ， 任 意 能 够 预测 连续 目标 的 方法 都 可 
以 应 用 ， 其 中 包括 强大 的 非 线性 方法 ， 如 支持 向 量 机 回归 模型 树 ( 带 叶 节 点 线性 回归 函数 的 
决策 树 )。 这 种 时 间 序 列 分 析 和 预测 方法 往往 比 诸 如 ARMA(AutoRegressive Moving Average 
model， 自 回归 滑动 平均 模型 ) 和 ARIMA(AutoRegressive Integrated Moving Average model， 
差分 自 回归 滑动 平均 模型 ) 的 传统 统计 技术 更 为 强大 和 灵活 。 


6.4.1 使 用 时 间 序 列 环境 


时 间 序 列 环境 要 求 Weka 3.7.3 以 上 版 本 ， 使 用 包 管 理 器 进行 安装 。 启 动 包 管 理 器 ， 
定位 到 timeseriesForecasting 包 ， 单 击 Install 按钮 进行 安装 ， 安 装 完成 后 的 窗口 如 图 6.94 
所 示 。 


图 6.94 安装 后 的 时 间 序 列 环境 


时 间 序 列 环境 安装 完成 后 ， 在 本 地 计算 机 用 户 目 录 下 的 wekafiles\packages\ 
timeseriesForecasting 子 目 录 中 ， 可 以 找到 安装 后 的 文件 目录 ， 如 图 6.95 所 示 。 其 中 ， 
build-res 子 目录 存放 编译 资源 ，doc 子 目录 存放 API 文档 ，lib 子 目 录 存 放 包 所 需要 的 jar 
库 文 件 ，sample-data 子 目录 存放 三 个 测试 数据 集 文件 ，src 子 目 录 存 放 源 文件 。 另 外 ， 在 
包 目 录 中 还 可 以 找到 一 个 名 称 类 似 于 pdm-timeseriesforecasting-ce-TRUNK-SNAPSHOT.jar 
的 文件 ， 如 果 使 用 Java 进行 开发 ， 需 要 导入 这 个 jar 库 文 件 。 
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6.95 安装 后 的 文件 目录 


重新 启动 Weka， 在 Weka 探索 者 界面 中 可 以 看 到 一 个 新 的 Forecast( 预 测 ) 标 签 页 ， 如 
图 6.96 所 示 。 新 增 预测 功能 后 并 不 改变 原来 的 数据 加 载 方法 ， 仍 然 使 用 探索 者 界面 的 
Preprocess 标签 页 加 载 文件 、URL 或 数据 库 。Forecast 标签 页 又 分 为 Basic configuration( 基 
本 配置 ) 和 Advanced configuration( 高 级 配置 ) 两 个 标签 页 ， 下 面 将 介绍 其 使 用 方法 。 


图 6.96 ” ”Forecast 标签 页 


1. 基本 配置 

Basic configuration 标签 页 如 图 6.96 所 示 ， 这 是 默认 的 配置 方式 。 

假设 已 经 将 airline( 航 空 公司 ) 样 本 数据 集 加 载 到 探索 者 界面 ， 该 数据 集 的 文件 名 为 
airline.arff ， 与 另外 两 个 数据 集 (appleStocks2011.arf 和 wine.ar 负 一 起 包含 在 
timeseriesForecasting 包 的 安装 目录 中 。 航 空 公司 数据 是 公开 可 用 的 基准 数据 集 ， 只 有 一 个 
时 间 系 列 数据 ， 即 passenger_ numbers( 乘 客人 数 )， 这 是 某 航 空 公司 从 1949 年 至 1960 年 的 
每 月 乘客 人 数 。 除 了 乘客 数量 ， 数 据 中 还 包括 一 个 日 期 时 间 戳 。Basic configuration 标签 页 
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中 会 自动 选择 唯一 的 目标 系列 以 及 Date 时 间 惟 字段 。 在 Basic configuration 标签 页 的 右上 
部 ， 可 以 看 到 Parameters( 参 数 ) 选 项 组 。 其 中 ，Number of time units to forecast( 预 测 时 间 单 
位 数值 微调 框 用 于 让 用 户 输入 时 间 步 长 的 数值 ， 在 所 提供 数据 之 后 对 n 个 步 长 的 数据 进行 
预测 。Time stamp( 时 间 戳 ) 下 拉 列 表 框 用 于 指定 一 个 字段 作为 时 间 戳 。Periodicity( 周 期 性 ) 
下 拉 列 表 框 用 于 指定 数据 的 周期 性 。 如 果 正 在 分 析 的 数据 具有 时 间 戳 ， 并 且 时 间 惟 是 日 期 
型 ， 那 么 可 以 选择 “<Detect automatically> ”选项 让 系统 自动 检测 数据 的 周期 性 。Skip 
list( 跳 过 列表 ) 文 本 框 用 于 让 用 户 指 定 要 忽略 的 时 间 段 。Confidence intervals( 置 信 区 间 ) 复 选 
框 下 面 的 Level( 水 平 ) 微 调 框 用 于 设置 由 系统 计算 预测 的 置信 区 间 。Perform evaluation( 执 行 
评估 ) 复 选 框 用 于 设置 是 否 对 训练 数据 进行 性 能 评估 。 后 文 会 介绍 这 些 选项 的 更 多 细节 。 

图 6.97 所 示 为 已 提供 数据 结束 后 24 个 月 的 数据 预测 结果 。 图 中 右 下 部 为 可 视 化 的 结 
果 ， 红 色 小 方块 表示 真实 的 旅客 数 ， 红 色 小 圆 点 表示 预测 的 旅客 数 。 
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1) 目标 选择 

Basic configuration 标签 页 的 左上 部 为 Target Selection( 目 标 选择 ) 选 项 组 ， 用 于 用 户 在 
数据 集中 选择 希望 预测 的 目标 字段 。 本 系统 可 以 同时 为 多 个 目标 字段 共同 建 模 ， 以 获取 它 
们 之 间 的 依赖 关系 。 正 因为 如 此 ， 同 时 为 多 个 系列 建 模 ， 每 个 系列 可 以 得 到 与 它们 独自 建 
模 不 同 的 结果 。 当 数据 中 只 有 一 个 目标 时 ， 系 统 就 会 自动 选择 唯一 的 目标 ， 在 有 可 能 有 多 
个 目标 的 情况 下 ， 用 户 必 须 手动 进行 选择 。 图 6.98 显示 了 另 一 个 基准 数据 集 的 结果 ， 在 这 
种 情况 下 ， 数 据 是 每 月 澳大利亚 葡萄 酒 的 销售 量 (单位 : 升 /月 )。 数 据 集 包 含 分 为 六 大 类 
的 葡萄 酒 的 销售 数据 ， 且 销售 量 为 从 1980 年 年 初 一 直到 1995 年 年 中 每 月 的 销售 记录 。 
图 6.98 同时 为 两 个 系列 建 模 并 预测 ， 这 两 个 序列 为 Fortified( 加 强 型 ) 和 Dry-white( 干 白 )。 

2) 基本 参数 

Basic configuration 标签 页 的 右上 部 是 Parameters( 参 数 ) 选 项 组 ， 在 该 选项 组 中 ， 可 以 
用 几 个 简单 的 参数 控制 预测 算法 的 行为 。 下 面 分 别 介绍 这 几 个 参数 。 

(1) 预测 的 时 间 单 位 数值 

第 一 个 参数 也 是 最 重要 的 参数 ， 是 Number of time units to forecast( 预 测 的 时 间 单 位 数 
值 ) 微 调 框 。 它 控制 预测 器 对 未 来 要 预测 多 少 个 时 间 步 长 ， 默 认为 1， 即 系统 仅 做 提前 1 步 


的 预测 。 对 于 图 6.97 所 示 的 示例 ， 将 航空 公司 数据 的 预测 步 长 设 为 24， 每 月 预测 一 次 ， 
一 共 预 测 两 年 ， 而 对 于 图 6.98 所 示 的 葡萄 酒 数据 ， 将 它 设置 为 12， 每 月 预测 一 次 ， 一 共 
预测 一 年 。 步 长 单位 应 该 与 已 知 数据 的 周期 性 相对 应 ， 例 如 ， 以 天 为 基础 记录 的 数据 ， 其 
预测 的 时 间 单 位 为 天 。 


6.98 葡萄 酒 12 个 月 的 预测 销售 量 


(2) 时 间 惟 

第 二 个 参数 是 Time stamp( 时 间 惟 ) 下 拉 列 表 框 。 如 果 系 统 检测 到 数据 集中 有 时 间 字 
段 ， 则 允许 用 户 选择 可 能 的 时 间 惟 字段 。 如 果 数 据 中 只 有 一 个 日 期 字段 ， 系 统 会 自动 选择 
该 字段 。 如 果 数 据 中 不 存在 日 期 字段 ， 则 自动 选择 Use an artificial time index( 使 用 人 工时 
间 索 引 ) 选 项 。 用 户 可 以 手动 选择 时 间 戳 ， 如 果 时 间 戳 是 一 个 非 日 期 型 的 数字 字段 ， 用 户 也 
必须 手动 选择 ， 因 为 系统 无 法 从 潜在 的 目标 字段 中 进行 区 分 。 用 户 还 可 以 从 下 拉 列 表 框 中 
选择 None( 无 ) 选 项 ， 以 告诉 系统 没有 人 工 产生 的 或 其 他 方式 的 时 间 戳 可 供 使 用 。 

(3) 周期 性 

Time stamp 下 拉 列 表 框 下 面 为 Periodicity( 周 期 性 ) 下 拉 列 表 框 ， 允 许 用 户 指定 数据 的 周 
期 性 。 如 果 日 期 字段 已 经 选 定 为 时 间 戳 ， 那 么 可 以 让 系统 使 用 启发 式 算 法 来 自动 检测 周期 
性 ， 即 如 果 系 统 初始 时 就 找到 并 设置 日 期 型 属性 作为 时 间 戳 ， 就 设置 “<Detect 
automatically>”( 自 动 检 测 ) 选 项 为 默认 值 。 如 果 时 间 戳 不 是 日 期 ， 那 么 用 户 可 以 明确 告诉 
系统 的 周期 性 是 哪 一 个 ， 或 者 ， 如 果 不 知道 就 选择 Unknown( 未 知 )。 周 期 性 用 于 为 创建 滞 
后 变量 而 设置 合理 的 默认 值 ， 参 见 下 文 “ 高 级 配置 ”部 分 。 在 时 间 戳 为 日 期 的 情形 下 ， 周 
期 性 也 可 用 于 创建 日 期 派生 字段 的 默认 集合 。 例 如 ， 对 于 每 月 的 周期 性 ， 将 自动 创建 年 
度 的 月 份 和 季度 字段 。 

(4) 跳 过 列表 

Periodicity 下 拉 列 表 框 之 下 为 Skip list( 跳 过 列表 ) 文 本 框 ， 允 许 用 户 指定 要 忽略 的 时 间 
段 ， 该 时 间 段 在 建 模 、 预 测 和 可 视 化 过 程 中 不 计 为 时 间 戳 增 量 。 例 如 ， 考 虑 某 只 股票 的 每 
日 交易 数据 ， 在 周末 及 公众 假期 内 交易 休市 ， 因 此 这 些 时 间 段 不 应 计 为 增 量 ， 并 且 其 差 值 
也 要 相应 调整 。 也 就 是 说 ， 市 场 自 上 周 五 收盘 到 下 周一 开盘 之 间 是 一 个 单位 时 间 ， 而 不 能 
计 为 三 个 ， 因 为 周末 收市 。 由 于 自动 检测 周期 性 的 启发 式 算法 无 法 处 理 这 些 数据 中 的 
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“ 洞 ”， 因 此 用 户 必须 指定 使 用 的 周期 性 ， 并 在 Skip list 文本 框 中 提供 不 计 为 增 量 的 时 
间 段 。 

Skip list 选项 可 以 接受 很 多 种 类 的 字符 串 ， 如 weekend( 周 末 )、sat( 星 期 六 )、tuesday( 星 
期 二 )、mar( 三 月 ) 和 october( 十 月 )， 还 可 以 是 具体 日 期 加 上 可 选 的 日 期 格式 字符 串 ， 如 
2013-04-01@yyyy-MM-dd， 以 及 一 个 整数 ， 整 数 的 含义 取决 于 指定 的 周期 性 。 例 如 ， 对 于 
日 数据 ， 一 个 整数 将 解释 为 一 年 中 的 第 几 天 ; 对 于 小 时 数据 ， 将 解释 为 一 天 中 的 第 几 个 小 
时 ; 对 于 月 数据 ， 将 解释 为 一 年 中 的 第 几 个 月 。 对 于 具体 的 日 期 ， 系 统 有 一 个 默认 的 格式 化 
字符 串 yyyy-MM-dd'T'HH:mm:ss， 用 户 也 可 以 指定 一 个 使 用 @<Format> 作 后 级 的 日 期 。 如 
果 列 表 中 所 有 日 期 的 格式 都 相同 ， 那 么 只 需 对 列表 中 的 第 一 个 日 期 指定 一 次 ， 以 后 的 日 期 
列表 中 都 使 用 该 默认 格式 。 

图 6.99 展示 了 2011 年 苹果 电脑 股票 走势 预测 设置 的 例子 ，appleStocks2011 数据 文件 
可 以 在 timeseriesForecasting 包 的 sample-data 目录 中 找到 。 该 文件 包含 苹果 电脑 股票 自 
2011 年 1 月 3 日 至 2011 年 8 月 10 日 的 数据 ， 包括 每 天 的 最 高 价 、 最 低 价 、 开 盘 价 和 收盘 
价 ， 其 数据 通过 雅虎 财经 获得 。 本 例 已 经 设置 预测 五 天 的 每 日 收盘 价 ， 设 置 周期 性 为 
Daily， 并 提供 跳 过 列表 以 忽略 周末 和 公共 假期 。 跳 过 列表 如 下 : 


weekend, 2011-01-17@yyyy-MM-dd, 2011-02-21, 2011-04-22, 2011-05-30, 2011-07-04 


图 6.99 2011 年 苹果 电脑 股票 走势 预测 设置 


狂 注意 :” 跳 过 列表 不 但 要 包括 已 知 数据 的 时 间 段 ， 而 且 一 定 要 包括 要 进行 预测 的 未 来 
时 间 内 需要 跳 过 的 时 间 段 ， 包 括 公众 假期 以 及 不 能 计 入 为 增 量 的 任何 其 他 日 期 。 


(5) 置信 区 间 

Skip list 文本 框 之 下 为 Confidence intervals( 置 信 区 间 ) 复 选 框 和 Level( 水 平 ) 微 调 框 ， 用 
户 可 以 选择 让 系统 计算 其 预测 的 置信 边界 ， 默 认 的 置信 水 平 为 95%。 系 统 采用 训练 数据 中 
己 知 的 目标 值 来 设 定 预测 的 置信 边界 。 因 此 ， 置 信 水 平 为 95% 意 味 着 为 真 的 目标 值 落 在 
95% 的 区 间 内 。 


王 注意 :， 每 个 提前 步 数 都 独立 计算 其 置信 区 间 ， 即 所 有 对 训练 数据 提前 1 步 的 预测 都 
用 来 计算 提前 1 步 的 置信 区 间 ， 所 有 提前 2 步 的 预测 都 用 来 计算 提前 2 步 的 
置信 区 间 ， 等 等 。 

(6) 执行 评估 
默认 情况 下 ， 设 置 系统 是 为 了 学 习 预 测 模型 ， 并 对 训练 数据 结束 之 后 的 数据 进行 巴 


测 。 选 中 Perform evaluation( 执 行 评 估 ) 复 选 框 ， 系 统 即 会 使 用 训练 数据 对 预测 器 进行 评 
估 。 也 就 是 说 ， 一 旦 预测 器 完成 数据 训练 ， 就 一 步 步 按 顺 序 对 各 时 间 点 的 数据 做 出 预测 。 
系统 使 用 各 种 指标 对 这 些 预测 进行 收集 和 归纳 ， 并 对 每 个 未 来 的 时 间 步 长 进行 预测 ， 即 收 
集 和 归纳 所 有 提前 1 步 预测 ， 收 集 和 归纳 所 有 提前 2 步 预测 ， 等 等 。 这 使 用 户 能 够 在 一 定 
程度 上 看 到 ， 与 短期 时 间 比 较 如 何 预测 较 长 远 的 时 间 。Advanced configuration 标签 页 允许 
用 户 对 配置 进行 微调 ， 如 选择 哪些 度量 进行 计算 ， 是 否 从 训练 数据 中 保留 一 些 数 据 作 为 单 
独 的 测试 集 等 。 

3) 输出 

Basic configuration 标签 页 中 的 输出 包括 三 个 部 分 ， 即 训练 评估 、 训 练 数 据 结 束 之 后 预 
测 值 的 图 形 、 以 文本 形式 给 出 的 预测 值 以 及 完成 学 习 模型 的 文字 说 明 。 图 6.100 所 示 为 完 
成 航空 公司 数据 学 习 后 得 到 的 模型 。 默 认 情 况 下 ， 时 间 序 列 环境 配置 为 线性 模型 学 习 ， 准 
确 地 说 是 线性 回归 (LinearRegression)。Advanced configuration 标签 页 中 的 输出 有 更 多 选 
项 ， 并 且 可 以 完全 控制 底层 模型 的 学 习 以 及 可 用 参数 。 
[| sw [el Wp/Visulisaion 
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图 6.100 文本 输出 


图 6.100 中 左 部 的 Result list( 结 果 列表 ) 区 域 用 于 保存 时 间 序列 分 析 的 结果 。 每 次 单 击 
Start 按钮 启动 一 个 预测 分 析 ， 就 会 在 该 列表 中 创建 一 个 条 目 。 所 有 的 文本 输出 以 及 与 分 析 
运行 关联 的 图 表 都 存储 在 列表 的 各 自 条 目 中 ， 存 储 在 列表 中 的 还 有 预测 模型 本 身 。 在 列表 
中 的 条 目 上 右 击 ， 弹 出 的 快捷 菜单 中 一 共有 六 个 菜单 项 ， 从 上 到 下 分 别 为 View in main 
window( 在 主 窗口 中 查看 )、View in separate window( 在 单独 的 窗口 中 查看 )、Delete result( 删 
除 结果 )、Save forecasting model( 保 存 预测 模型 )、Load forecasting model( 加 载 预测 模型 )、 
Re-evaluate model( 重 新 评估 模型 )。 如 果 在 启动 学 习 前 没有 选中 Perform evaluation 复 选 框 ， 
Re-evaluate model 菜单 项 就 变 灰 而 不 可 用 。 选 择 Save forecasting model 菜单 项 ， 可 以 将 模 
型 导出 到 磁盘 文件 ， 选 择 Load forecasting model 菜单 项 ， 可 以 将 保存 的 模型 加 载 到 内 存 。 

要 认识 到 ， 当 保存 模型 时 ， 所 保存 的 模型 是 建立 在 训练 数据 之 上 的 ， 对 应 于 结果 列表 
中 的 条 目 。 如 果 要 对 把 其 中 的 一 部 分 数据 拿 出 来 作为 单独 测试 集 的 方案 进行 评估 ， 那 么 所 
保存 的 模型 只 是 对 现 有 的 部 分 数据 进行 训练 。 因 此 ， 建 议 在 保存 模型 前 取消 选中 Perform 
evaluation 复 选 框 ， 对 全 部 可 用 数据 构建 模型 。 

2. 高 级 配置 

Advanced configuration 标签 页 为 用 户 提供 在 某 些 方面 的 预测 分 析 的 完全 控制 权 ， 包 括 
选择 底层 模型 和 参数 、 创 建 滞后 变量 、 创 建 日 期 时 间 惟 派生 的 变量 、 指 定 “ 重 登 ” 数 据 、 
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评估 选项 以 及 控制 输出 的 内 容 。 其 中 每 一 项 在 Advanced configuration 中 都 对 应 一 个 专门 的 
标签 页 ， 下 面 详 细 讨论 这 些 内 容 。 

1) 基本 学 习 器 
Base learmer( 基 本 学 习 器 ) 标 签 页 可 以 控制 用 于 对 时 间 序 列 建 模 的 Weka 学 习 算法 ， 它 
也 允许 用 户 定制 所 选择 的 特定 学 习 算 法 的 参数 ， 如 图 6.101 所 示 。 


Brepraeess | Classify | Clester | hrsoiats | Selact sttritstes| asmalise e700er 


图 6.101 Base learner 标签 页 
分 析 环 境 的 默认 配置 为 使 用 线性 回归 算法 ， 这 是 Weka 实现 的 LinearRegression 算法 。 
也 可 以 选择 其 他 算法 ， 只 需 单 击 Choose 按钮 ， 选 择 另 一 种 能 够 预测 数值 属性 的 算法 即 
可 ， 如 图 6.102 所 示 。 
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图 6.102 选择 其 他 算法 


单 击 Choose 按钮 右 侧 的 文本 框 ， 可 以 打开 通用 对 象 编辑 器 对 话 框 ， 以 调整 所 选择 的 
学 习 算 法 的 参数 ， 如 图 6.103 所 示 。LinearRegression 算法 的 主要 参数 有 
attributeSelectionMethod( 属 性 选择 方法 )、eliminateColinearAttributes( 消 除 共 线性 属性 )、 
minimal( 最 低 限 )、outputAdditionalStats( 输 出 附加 统计 数据 ) 和 ridge( 岭 参数 )， 有 具体 参见 附 
录 B。 

2) 滞后 创建 

Lag creation( 滞 后 创建 ) 标 签 页 允许 用 户 控制 及 操纵 如 何 建立 滞后 变量 。 滞 后 变量 是 
种 将 某 个 序列 的 过 去 值 与 当前 值 进行 关联 的 媒介 ， 这 种 关联 关系 能 够 为 建议 的 学 习 算 法 所 
捕获 ， 滞 后 变量 创建 在 一 段 时 间 内 的 “窗口 ”或 “快照 ”。 从 本 质 上 讲 ， 创 建 的 滞后 变量 


@« 


的 数量 决定 窗口 的 大 小 。 在 Basic configuration 标签 页 中 使 用 Periodicity( 周 期 性 ) 参 数 来 设 
置 创建 (决定 窗口 大 小 的 ) 灌 后 变量 数量 的 合理 默认 值 。 例 如 ， 如 果 有 每 月 的 销售 数据 ， 那 
么 ， 将 滞后 设置 为 12 个 时 间 步 长 才 有 意义 ; 如 果 是 小 时 级 别 的 数据 ， 则 将 滞后 设置 为 24 
个 或 者 12 个 时 间 步 长 才 有 意义 。 
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6.103 ”修改 算法 参数 


Lag creation 标签 页 的 左 部 为 Lag length( 滞 后 长 度 ) 选 项 组 ， 其 中 包含 用 于 设置 和 微调 
滞后 长 度 的 控件 。 选 项 组 项 部 为 Use custom lag lengths( 使 用 自 定义 的 滞后 长 度 ) 复 选 框 ， 允 
许 用 户 更 改 在 Basic configuration 标签 页 中 设 定 的 默认 滞后 长 度 。 


于 注意 : 显示 的 数字 长 度 不 一 定 是 所 使 用 的 默认 值 ， 如 果 用 户 已 经 在 Basic 
configuration 标签 页 的 Periodicity 下 拉 列 表 框 中 选择 了 “<Detect 
automatically>” 选 项 ， 那 么 实际 的 默认 滞后 长 度 要 在 运行 时 刻 对 数据 分 析 时 
才 会 设置 。 

Minimum lag( 最 小 滞后 ) 微 调 框 允许 用 户 指 定 创建 滞后 字段 前 向 时 间 步 的 最 小 值 ， 例 

如 ， 值 1 表示 创建 一 个 滞后 变量 ， 保 持 时 刻 -1 的 目标 值 。Maximum lag( 最 大 滞后 ) 微 调 框 

用 于 指定 创建 滞后 变量 前 向 时 间 步 的 最 大 值 ， 例 如 ，12 表示 创建 一 个 滞后 变量 值 ， 保 持 时 

刻 -12 的 目标 值 。 所 有 在 滞后 的 最 小 值 和 最 大 值 之 间 的 时 间 段 都 会 转换 为 滞后 变量 。 通 过 

在 Fine tune lag selection( 微 调 滞后 选择 ) 文 本 框 中 输入 一 个 范围 ， 可 以 对 最 小 值 和 最 大 值 之 

间 创 建 的 变量 进行 微调 。 图 6.104 所 示 的 数据 集 为 每 周 数据 ， 所 以 选择 将 滞后 的 最 小 值 和 

最 大 值 分 别 设置 为 1 和 52( 每 年 52 周 )。 在 此 ， 选 择 只 创建 1 一 26 和 52( 输 入 “1-26, 52”) 

的 滞后 。 

Lag length 选项 组 最 下 面 为 More options( 更 多 选项 ) 按 钮 ， 单 击 该 按钮 会 弹出 如 图 6.105 

所 示 的 对 话 框 。 对 话 框 中 有 四 个 复 选 框 ， 第 一 个 复 选 框 是 Remove leading instances with 

unknown lag values( 删 除 带 未 知 滞后 值 的 起 始 实例 )， 选 中 该 选项 会 删除 前 面 的 带 未 知 滞后 

值 的 实例 。 默 认 选 中 Include powers of time( 包 括 时 间 的 守 ) 复 选 框 ， 回 归公 式 中 带 有 时 间 的 

二 次 方 和 三 次 方 项 。 默 认 选中 Included products of time and lagged variables( 包 括 时 间 和 滞后 

变量 的 乘积 ) 复 选 框 ， 回 归公 式 中 带 有 时 间 与 滞后 变量 的 乘积 项 。 最 后 为 Adjust for 
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数据 挖 所 与 机 器 学 习 
variance( 调 整 方 差 ) 复 选 框 ， 允 许 用 户 选择 让 系统 补偿 数据 方差 。 为 此 ， 它 在 创建 滞后 变量 
之 前 选取 每 个 目标 的 滞后 并 构建 模型 。 如 果 方 差 ( 数 据 “跳动 ”的 幅度 ) 随 时 间 进 程 而 增加 
或 减少 ， 这 可 能 很 有 用 。 调 整 方差 可 能 会 也 可 能 不 会 提高 性 能 。 最 好 是 通过 试验 ， 看 它 是 
否 有 助 于 手头 数据 与 参数 的 组 合 选择 。 
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6.105 ”More options 对 话 框 


Lag creation 标签 页 的 右 部 为 Averaging( 平 均 ) 选 项 组 。 选 中 Average consecutive long 
lags( 平 均 连 续 长 滞后 ) 复 选 框 ， 可 以 通过 对 几 个 在 时 间 上 连续 的 变量 值 求 平 均值 ， 使 滞后 变 
量 的 数目 减少 。 当 用 户 希 望 数 据 窗口 很 大 ， 但 没有 大 量 的 历史 数据 点 时 ， 这 可 能 很 有 用 。 
一 条 经 验 法 则 是 数据 行 数 应 该 至 少 是 字段 数 的 10 倍 以 上 ， 但 也 有 例外 ， 这 取决 于 学 习 算 
法 ， 例 如 ， 支 持 向 量 机 可 以 在 字段 数 比 行 数 更 多 的 情况 下 工作 得 更 好 。 对 多 个 连续 滞后 变 
量 进行 平均 ， 使 其 缩减 为 单个 字段 ， 减 少 了 输入 字段 数目 且 ( 至 少 对 长 滞后 而 言 ) 使 可 能 的 
信息 损失 最 小 。Average lags longer than( 平 均 滞后 时 间 长 于 ) 微 调 框 允许 用 户 指定 何 时 启动 
求 平均 过 程 。 例 如 ， 在 图 6.104 中 ， 该 参数 设置 为 2， 表 示 时 刻 -1 和 时 刻 -2 滞后 变量 将 保 
持 不 变 ， 而 时 刻 -3 及 以 上 时 将 替换 为 平均 值 。# consecutive lags to average( 求 平均 的 连续 灌 
后 数量 ) 微 调 框 用 于 控制 每 个 求 平均 的 组 中 有 多 少 个 滞后 变量 。 例 如 ， 在 图 6.104 中 ， 该 参 
数 也 设 定 为 2， 表 示 时 刻 -3 和 时 刻 -4 将 求 平均 以 形成 一 个 新 的 字段 ， 时 刻 -5 和 时 刻 -6 将 
求 平均 以 形成 一 个 新 的 字段 ， 等 等 。 


狂 注意: ”只 有 连续 沾 后 变量 才能 求 平均 ， 因 此 ， 上 例 选择 对 1~26 和 52 的 滞后 进行 
微调 ， 时 刻 -26 不 能 与 时 刻 -52 求 平均 ， 因 为 它们 不 连续 。 
3) 周期 性 属性 
Periodic attributes( 周 期 性 属性 ) 标 签 页 允许 用 户 自 定义 创建 日 期 派生 的 周期 性 属性 。 该 
功能 仅 当 数据 中 包含 日 期 时 间 惟 时 才 可 用 。 如 果 时 间 改 是 日 期 ， 则 自动 设置 一 些 默认 值 (由 
Basic configuration 标签 页 中 的 Periodicity 选项 的 设置 决定 )。 例 如 ， 如 果 数 据 为 月 度 时 间 间 
隔 ， 则 数据 中 将 包含 month of the year( 一 年 中 的 月 度 ) 和 quarter( 季 度 )， 将 其 作为 变量 。 用 


户 可 以 选中 Customize( 自 定义 ) 复 选 框 ， 然 后 可 以 禁用 、 选 择 和 创建 新 的 自 定义 日 期 派生 变 
量 。 选 中 复 选 框 ， 会 显示 一 组 预定 义 变量 供用 户 选 择 ， 如 图 6.106 所 示 。 
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6.106 ”Periodic attributes 标签 页 
如 果 不 选中 任意 默认 变量 ， 其 结果 是 不 创建 日 期 派生 的 变量 。 除 预定 义 的 默认 值 之 
外 ， 还 可 以 创建 自 定义 的 日 期 派生 变量 。 单 击 New( 新 建 ) 按 钮 ， 可 以 根据 规则 创建 一 个 新 
的 自 定义 日 期 派生 变量 ， 如 图 6.107 所 示 。 


6.107” 自 定义 周期 性 字段 编辑 对 话 框 


本 例 创 建 一 个 称 为 MayDayBreak( 五 一 长 假 ) 的 自 定义 日 期 派生 变量 ， 由 单个 的 基于 日 
期 的 测试 (test) 组 成 ， 在 对 话 框 的 底部 可 以 看 到 其 表达 式 。 该 变量 为 布尔 型 ， 当 日 期 在 5 月 
1 日 至 5 月 10 日 内 其 值 为 1。 还 可 以 添加 额外 的 测试 ， 以 便 评估 多 个 不 连续 的 时 间 段 。 

Field name( 字 段 名 称 ) 文 本 框 允许 用 户 为 新 的 变量 取 名 ， 其 下 有 两 个 按钮 ，New( 新 建 ) 
按钮 用 于 为 规则 添加 新 测试 ，Delete( 删 除 ) 按 钮 用 于 从 底部 列表 中 删除 当前 选 定 的 测试 。 当 
在 列表 中 选择 一 个 测试 时 ， 会 将 测试 的 值 显示 在 窗口 中 部 Test interval( 测 试 间隔 ) 选 项 组 的 
上 限 和 下 限 下 拉 列 表 杠 中， 如 图 6.107 所 示 。 每 个 下 拉 列 表 框 中 可 编辑 一 个 边界 元 素 ， 从 
左 至 右 的 下 拉 列 表 框 为 : 比较 操作 符 、 年 、 月 、 年 的 第 几 周 、 月 的 第 几 周 、 年 的 第 几 天 、 
月 的 第 几 天 、 星 期 几 、 天 的 第 几 小 时 、 分 钟 和 秒 。 将 鼠标 悬 停 在 每 个 下 拉 列 表 杠 中， 会 显 
示 工 具 提示 说 明 提供 的 功能 。 每 个 下 拉 列 表 框 中 包含 该 元 素 所 绑 定 的 合法 值 ， 支 持 通 配 
符 ， 如 “*” 字 符 匹 配 任意 条 件 。 

Test inverval 选项 组 之 下 为 Label( 标 签 ) 文 本 框 ， 人 允许 使 用 字符 串 标签 与 规则 中 的 每 个 
测试 间隔 相关 联 。 规 则 中 的 所 有 间隔 要 么 都 有 一 个 标签 ， 要 么 都 没有 ， 不 能 一 些 间 隔 有 标 
签 而 另 一 些 没 有 ， 和 否则 会 产生 错误 。 如 果 所 有 时 间 间 隔 都 有 标签 ， 则 通常 将 自 定义 字段 的 
值 设置 为 与 规则 相关 ， 而 不 只 是 0 或 1。 规 则 评估 处 理 为 列表 ， 即 从 上 到 下 ， 第 一 个 评估 
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一 一 WEKA 应 用 


为 true 的 间隔 将 用 于 设置 字段 的 值 。 默 认 标签 ( 即 如 果 没 有 其 他 测试 间隔 匹配 而 分 配 的 标签 ) 
可 以 通过 使 用 通配符 对 列表 中 的 最 后 一 个 测试 间隔 来 进行 设置 。 在 所 有 间隔 都 有 标签 的 情 
况 下 ， 如 果 没 有 “笼统 ”的 默认 设置 ， 则 没有 间隔 匹配 的 自 定义 字段 的 值 将 设置 为 缺失 。 
这 与 不 使 用 标签 且 字段 为 二 元 标志 的 情况 不 同 ， 在 后 一 种 情况 下 ， 间 隔 不 能 匹配 将 导致 自 
定义 字段 的 值 设置 为 0。 

4) 重 县 数据 

Overlay data( 重 倒数 据 ) 标 签 页 允许 用 户 指 定 应 该 视 为 “ 重 琶 ”数据 的 字段 ， 如 果 有 的 
话 。 默 认 设 置 为 不 使 用 重 琶 数据 。 重 倒数 据 被 认为 是 数据 转换 和 闭环 预测 过 程 的 外 部 数 
据 ， 即 这 些 不 进行 预测 的 数据 不 能 自动 派生 ， 且 要 为 所 预测 的 未 来 时 期 持续 提供 这 些 数 
据 。 在 图 6.108 中 ， 加 载 澳大利亚 葡萄 酒 数据 到 系统 中 ， 且 选 定 Fortified( 强 化 ) 为 预测 目 
标 。 通 过 选中 Use overlay data( 使 用 重 释 数据 ) 复 选 框 ， 系 统 显 示 数 据 中 没有 选中 为 目标 或 
时 间 惟 的 其 他 字段 ， 这 些 字段 都 可 用 作 重 有 登 数据 。 


6.108 ”Overlay data 标签 页 


系统 将 使 用 所 选 的 重合 字段 作为 模型 的 输入 。 通 过 这 种 方式 ， 模 型 才 有 可 能 考虑 一 些 
特殊 的 历史 条 件 ( 如 股市 崩溃 ) 及 其 在 未 来 已 知 时 刻 即 将 发 生 事件 的 影响 因素 (如 历史 上 已 发 
生 的 非常 规 的 促销 活动 ， 以 及 将 来 的 促销 计划 )。 这 样 的 变量 在 时 间 序 列 文献 中 通常 被 称 为 
intervention variables( 干 预 变量 )。 

当 执行 使 用 覆盖 数据 的 分 析 时 ， 系 统 可 能 会 报告 说 它 无 法 在 数据 结束 之 后 生成 预测 。 
这 是 因为 没有 提供 时 间 区 间 所 要 求 的 覆盖 字段 的 值 ， 因 此 模型 无 法 为 选 定 的 目标 产生 预 
测 。 需 要 注意 的 是 ， 可 以 就 训练 数据 以 及 训练 数据 尾部 的 留存 数据 对 模型 进行 评估 ， 因 为 
这 些 数据 的 确 已 经 包含 了 重 又 字段 的 值 。 

5) 评估 

Evaluation( 评 估 ) 标 签 页 允许 用 户 选 择 希 望 的 评估 指标 ， 并 配置 是 否 使 用 训练 数据 以 及 
根据 训练 数据 尾部 的 留存 数据 进行 评估 。 在 Basic configuration 标签 页 中 选中 Perform 
evaluation( 执 行 评 估 ) 复 选 框 与 在 这 里 选中 Evaluate on training( 评 估 训 练 ) 复 选 框 的 效果 相 
同 。 默 认 情 况 下 ， 将 计算 预测 的 平均 绝对 误差 (MAE) 和 均 方 根 误差 (RMSE)， 如 图 6.109 所 
示 。 用 户 可 以 在 Metrics( 度 量 ) 选 项 组 中 选择 用 于 计算 的 度量 ， 可 用 的 度量 如 下 。 

(1) 平均 绝对 误差 (MAE): sum(abs(predicted-actual))/N。 

(2) 均 方 误差 (MSE): sum((predicted-actual)^2)/N。 

(3) 均 方 根 误差 (RMSE): sqrt(sum((predicted-actual)^2)/N)。 

(4) 平均 绝对 百分比 误差 (MAPE): sum(abs((predicted-actual)/actual))/N。 


(5) 方向 精度 (DAC): count(sign(actual current-actual previous) 一 sign(pred_current- 
pred_previous))/N。 

(6) 相对 绝对 误差 (RAE): sum(abs(predicted-actual))/sum(abs(previous_target-actual))。 

(7) 相对 方 根 误差 (RRSE): sqrt(sum((predicted-actual)^2)/N)/sqrt(sum(previous_target-— 
actual)^2)/N)。 
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6.109 Evaluation 标签 页 


相对 度量 给 出 相对 于 只 使 用 最 后 一 个 已 知 目标 值 的 预测 ， 预 测 器 预测 的 性 能 有 多 好 。 
相对 度量 以 百分比 表示 ， 与 只 使 用 最 后 一 个 已 知 目标 值 相 比 ， 越 小 的 相对 度量 值 表 明 其 预 
测 效果 越 好 。 相 对 度量 值 大 于 等 于 100 表明 预测 器 不 会 比 用 最 后 一 个 已 知 目标 值 预测 做 得 
更 好 人 (或许 会 更 糟 )。 需 要 注意 的 是 ， 最 后 一 个 已 知 目标 值 是 相对 于 要 预测 的 步骤 而 言 的 。 
例如 ， 提 前 12 步 预测 是 使 用 相对 于 本 步骤 前 面 第 12 个 时 间 步 长 目标 值 作为 预测 而 言 的 ， 
因为 前 面 的 第 12 个 时 间 步 长 目标 值 就 是 最 后 一 个 “已 知 ” 的 实际 目标 值 。 

Evaluate on held out training( 评 估 留 存 训练 ) 复 选 框 右边 有 一 个 文本 框 ， 允 许 用 户 选择 自 
系列 结束 起 留存 多 少 训练 数据 ， 以 形成 独立 测试 集 。 这 里 输入 的 数值 既 可 以 表示 绝对 的 行 
数 ， 也 可 以 表示 训练 数据 的 一 部 分 (表示 为 0 一 1 之 间 的 小 数 )。 

6) 输出 

Output( 输 出 ) 标 签 页 提供 了 控制 系统 产生 的 文本 和 图 形 输出 的 选项 ， 其 中 包括 两 个 选 
项 组 : Output options( 输 出 选项 ) 和 Graphing options( 图 形 选项 )。 前 者 控制 环境 中 显示 在 主 
输出 区 域 的 文本 输出 ， 后 者 则 控制 图 表 的 生成 ， 如 图 6.110 所 示 。 
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6.110 ”Output 标签 页 


选中 Output predictions at step( 在 …… 时 间 步 输出 预测 ) 复 选 框 会 使 系统 对 单个 目标 的 每 
一 步 都 输出 实际 值 和 预测 值 ， 也 输出 错误 。 
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数据 控 据 与 机 器 学 习 
一 一 WEKA 应 用 
选中 Output future predictions beyond end of series( 输 出 系列 之 后 对 将 来 的 预测 ) 复 选 框 
会 使 系统 在 数据 结束 后 ， 输 出 训练 数据 和 预测 器 预测 所 有 目标 的 预测 值 (直至 时 间 单 位 的 最 
大 数值 )。 预 测 值 都 以 “* ”号 标示 ， 以 明确 训练 值 和 预测 值 之 间 的 边界 。 
在 Graphing options( 图 形 选 项 ) 选 项 组 中 ， 用 户 可 以 选择 系统 生成 哪 种 图 形 。 与 文本 输 
出 相似 ， 选 中 Graph predictions at step( 在 …… 时 间 步 的 图 形 预 测 ) 复 选 框 ， 可 以 以 图 形 方 式 
显示 特定 时 间 步 的 预测 。 不 同 于 文本 输出 ， 它 将 绘制 预测 器 预测 的 所 有 目标 。 选 中 Graph 
target at steps( 在 …*… 时 间 步 的 图 形 目 标 ) 复 选 框 ， 允 许 绘制 单个 目标 的 多 个 时 间 步 。 例 如 ， 
对 于 同一 目标 ， 生 成 的 图 形 可 以 表示 提前 1 步 、 提 前 2 步 和 提前 5 步 的 预测 。 当 选中 
Graph target at steps 复 选 框 后 ，Target to graph( 目 标 图 ) 下 拉 列 表 框 和 Steps to graph( 步 又 图 ) 
文本 框 变 得 可 用 。 


6.4.2 手把手 教 你 用 


1. 使 用 基本 配置 


在 使 用 基本 配置 之 前 ， 确 保 已 经 安装 了 时 间 序 列 建 模 环境 ， 安 装 方式 可 参见 第 1 章 中 
关于 包 管 理 器 的 内 容 。 

启动 Weka 探索 者 界面 ， 单 击 Open file 按钮 ， 导 航 至 Weka 安装 包 位 置 。Win 7、Win 
8 操作 系统 的 安装 包 目 录 为 C:\Users\computemame\wekafiles\packages\， 请 读者 自行 用 自己 
的 计算 机 名 称 蔡 换 computername。 在 该 目录 下 ， 继 续 导 航 至 timeseriesForecasting\sample- 
data 子 目 录 ， 可 以 看 到 目录 里 有 三 个 数据 集 文件 。 选 择 appleStocks2011.arff 文件 ， 然 后 单 
击 “ 打 开 ” 按 钮 加 载 2011 年 苹果 电脑 股票 数据 ， 加 载 后 的 窗口 如 图 6.111 所 示 。 
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图 6.111 加 载 苹果 电脑 股票 数据 


可 以 看 到 一 共有 7 个 属性 ， 包 括 日 期 (Date)、 开 盘 价 (Open)、 最 高 价 (High)、 最 低 价 
(Low)、 收 盘 价 (Close)、 成 交 量 (Volume)， 以 及 调整 后 的 收盘 价 (Adj Close)。 单 击 Edit 按 
钮 ， 打 开 Viewer 对 话 框 查看 具体 数据 ， 可 以 看 到 一 共有 153 个 样本 。 

切换 至 Forecast 标签 页 ， 保 持 Basic configuration 标签 页 不 变 。 首 先 在 数据 集中 选择 希 
望 预测 的 目标 字段 ， 由 于 本 数据 集 有 多 个 目标 ， 必 须 手动 选择 目标 。 股 票 一 天 中 最 为 重要 


y 
@ 


的 数据 是 收盘 价 ， 因 此 选中 Close 复 选 框 。 
猴 注意 :。 只 有 在 选择 目标 以 后 ，Start 按钮 才 变 得 可 用 。 
然后 在 Number of time units to forecast 微调 框 中 输入 预测 的 时 间 单 位 数值 ， 这 里 输入 
5， 以 预测 5 天 股票 的 收盘 价 。 因 为 Time stamp 下 拉 列 表 框 中 已 经 正确 选择 了 Date 字段 作 
为 时 间 惟 ， 所 以 不 用 修改 。 现 在 看 Skip list 文本 框 ， 发 现 该 文本 框 不 可 用 ， 应 该 先 在 
Periodicity 下 拉 列 表 框 中 选择 Daily 选项 ， 然 后 在 Skip list 文本 框 中 输入 如 下 需要 跳 过 的 日 期 : 
weekend, 2011-01-17@yyyy-MM-dd, 2011-02-21,2011-04-22, 2011-05-30,2011-07-04 


保持 其 他 选项 为 默认 值 ， 单 击 Start 按钮 启动 预测 学 习 ， 可 以 看 到 输出 区 域 输出 了 如 图 6.112 
所 示 的 文本 预测 信息 ， 并 且 在 结果 列表 中 添加 了 一 个 条 目 。 最 后 五 条 以 “*” 标 示 的 数据 
是 预测 的 收盘 价 ， 注 意 到 其 中 从 8 月 12 日 直接 跳 到 8 月 15 日 ， 这 是 因为 我 们 设置 了 跳 
过 周末 。 单 击 窗口 右 下 部 的 Train future pred.( 训 练 预 测 将 来 ) 标 签 ， 可 切换 至 图 形 输出 。 


图 6.112 预测 的 文本 输出 


如 输出 6.1 所 示 ， 预 测 器 文本 输出 分 为 两 个 部 分 : Run information( 运 行 信息 ) 和 Future 
predictions from end of training data( 自 训练 数据 结束 的 未 来 预测 )。 如 果 选 中 Perform 
evaluation 复 选 枉 ， 输 出 还 会 包含 第 三 部 分 : Evaluation on training data( 评 估 训 练 数据 )。 其 
中 ， 运 行 信息 中 包含 Scheme( 学 习 方 案 ) 的 名 称 和 参数 、Lagged and derived variable 
options( 滞 后 和 派生 变量 选项 )、 数 据 集 简要 说 明 (关系 名 、 实 例 数 量 以 及 属性 数量 及 属性 
名 )、Transformed training data( 转 换 后 的 训练 数据 )、 预 测 目标 (这 里 是 Close)、Weights( 权 重 ) 
以 及 Number of kernel evaluations( 核 评估 数量 )。 自 训练 数据 结束 的 未 来 预测 以 表格 形式 展 
现 ， 第 一 列 为 时 间 (Time)， 第 二 列 为 预测 目标 (Close)， 表 格 行 分 为 两 个 部 分 ， 前 一 部 分 为 
训练 数据 ， 后 一 部 分 以 “*” 标 示 的 为 预测 数据 。 


输出 6.1 预测 器 的 输出 


=—= Run information 一 一 


Scheme : 
LinearRegression -S 0 -R 1.0E-8 -num-decimal-places 4 
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Lagged and derived variable options: 
-F [Close] -L 1 -M 7 -G Date -dayofweek -weekend -skip weekend,2011-01- 
17@yyyy-MM-dd, 2011-02-21,2011-04-22, 2011-05-30, 2011-07-04 


Relation: Applestocks 
Instances: 153 
Attributes: 7 

Date 

Open 

High 

Low 

Close 

Volume 

Rdj Close 


Transformed training data: 


Close 

DayOfWeek 

Weekend 

Date-remapped 

Lag Close-1 

Lag Close-2 

Lag Close-3 

Lag Close-4 

Lag Close-5 

Lag Close-6 

Lag Close-7 
Date-remapped^2 
Date-remapped^3 
Date-remapped*Lag Close-1 
Date-remapped*Lag Close-2 
Date-remapped*Lag Close-3 
Date-remapped*Lag Close-4 
Date-remapped*Lag Close-5 
Date-remapped*Lag Close-6 
Date-remapped*Lag Close-7 


Close: 


Linear Regression Model 


Close = 
1.6971 * DayOfWeek=tue + 
0.1139 * Date-remapped + 
0.9839 * Lag Close-1 + 
0.1828 * Lag Close-2 十 
-0.3186 * Lag Close-3 + 
0.2237 * Lag Close-4 + 
-0.1742 * Lag Close-5 + 
0.2412 * Lag Close-6 十 


@ 


-0.1904 * Lag Close-7 + 

0 * Date-remapped^3 + 

-0.0004 * Date-remapped*Lag Close-l1 + 
-0.0001 * Date-remapped*Lag Close-2 + 
0.0002 * Date-remapped*Lag Close-3 + 
-0.0001 * Date-remapped*Lag Close-4 + 
-0.0001 * Date-remapped*Lag Close-5 + 
0.0002 * Date-remapped*Lag Close-6 + 
-0.0001 * Date-remapped*Lag Close-7 + 
18.8757 


=== Future predictions from end of training data 一 一 
Time Close 

2011-01-03 329.6 

2011-01-04 33153 

2011-01-05 334 

2011-01-06 333.7 


2011-08-09 374 

2011-08-10 363.7 

2011-08-11* 372:7021 
2011-08-12* 365.0933 
2011-08-15* 373.0496 
2011-08-16* 367.1428 
2011-08=17* 377.529 


现在 ， 选 中 Perform evaluation 复 选 框 ， 再 次 单 击 Start 按钮 启动 预测 学 习 ， 这 时 的 文 
本 输出 如 图 6.113 所 示 。 容 易 看 到 ， 这 时 所 输出 的 文本 数据 中 包含 了 以 二 维 表 的 形式 展现 
的 对 训练 数据 的 评估 ， 其 中 ， 列 为 提前 1 步 到 提前 5 步 的 目标 ; 行 自 上 而 下 分 别 为 N( 评 估 
样本 数 )、 平 均 绝 对 误差 、 均 方 根 误差 。 


6.113 ”选中 Perform evaluation 复 选 框 后 的 输出 


最 后 ， 在 结果 列表 中 选择 第 一 个 条 目 并 右 击 ， 在 弹出 的 快捷 菜单 中 选择 Save 
forecasting model 菜单 项 ， 将 训练 后 的 模型 保存 到 磁盘 中 ， 以 便 将 来 使 用 。 


2. 使 用 高 级 配置 
本 示例 展示 如 何 使 用 高 级 配置 。 


酒 同 注 下 eM 山 9 小井 IE 


@« 


@« 


数据 挖掘 写 机 器 学 习 


一 一 WEKA 记 | 


在 探索 者 界面 的 Preprocess 标签 页 中 加 载 wine.arff 数据 文件 ， 切 换 至 Forecast 标签 
页 ， 在 Target Selection 选项 组 中 ， 选 中 第 一 项 Fortified， 并 将 Number of time units to 
forecast 设置 为 12， 保 持 其 他 选项 为 默认 值 。 

然后 ， 切 换 至 Advanced configuration 标签 页 。 在 Base learmer 标签 页 中 单 击 Choose 按 
钮 ， 选 择 线性 回归 LinearRegression 作为 基 学 习 器 ， 保 持 默 认 设 置 。 单 击 Start 按钮 启动 预 
测 器 ， 预 测 结果 如 图 6.114 所 示 。 如 果 要 比较 不 同 基 学 习 器 的 性 能 ， 可 在 Evaluation 标签 
页 中 选中 Evaluate on training 复 选 框 ， 比 较 评估 训练 数据 的 度量 指标 。 


6.114 ”LinearRegression 预测 输出 


下 面 使 用 Lag creation 标签 页 。 首 先 检查 一 下 文字 输出 的 Transformed training data 部 
分 ， 可 以 看 到 如 下 的 12 个 滞后 变量 : 


Lag Fortified-1 
Lag Fortified-2 
Lag Fortified-3 
Lag Fortified-4 
Lag Fortified-5 
Lag Fortified-6 
Lag Fortified-7 
Lag Fortified-8 
Lag Fortified-9 
Lag Fortified-10 
Lag Fortified-11 
Lag Fortified-12 


如 果 要 定制 滞后 变量 ， 可 选中 Use custom lag lengths 复 选 框 ， 然 后 按照 图 6.115 所 示 
进行 设置 。 
Lng length 
MUse custom lag lengths 
iniam lad 1 上 exinum 1ag 12 有] 


Fine tune lag selectio! 


More options. .. 


图 6.115 定制 滞后 变量 


再 次 单 击 Start 按钮 启动 预测 ， 在 输出 中 可 以 看 到 Fortified 滞后 变量 已 经 从 原来 的 12 
个 减少 到 如 下 的 7 个 : 
Lag Fortified-1 
Lag Fortified-2 
Lag Fortified-3 
Lag Fortified-4 
Lag Fortified-5 
Lag Fortified-6 
Lag Fortified-12 
下 面 使 用 Periodic attributes 标签 页 。 假 如 认为 每 年 12 月 份 的 圣诞 节 对 酒 类 的 销售 影响 
较 大 ， 可 以 定制 一 个 名 称 为 Christmas 的 周期 性 字段 ， 如 图 6.116 所 示 ， 该 字段 会 影响 预测 


结果 。 
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6.116” 自 定义 周期 性 字段 


单 击 “ 确 定 ” 按 钮 完成 定制 。 这 时 ， 在 Date-derived periodic creation 选项 组 中 的 最 后 
一 行 会 显示 名 称 为 c_Christmas 的 周期 性 字段 ， 如 图 6.117 所 示 。 


Be | lss | | sw。 ] i 加 eemiee 


日 


图 6.117 新 增 的 自 定义 字段 


再 次 单 击 Start 按钮 启动 预测 ， 在 输出 中 可 以 看 到 如 下 所 示 的 c_Christmas 变量 ， 该 变 
量 在 算法 中 会 参与 预测 计算 : 
Fortified 
© Christmas 
Date-remapped 
Lag Fortified-1 
Lag Fortified-2 


下 面 使 用 Overlay data 标签 页 。 选 中 Use overlay data 复 选 框 ， 系 统 显 示 可 用 作 重 倒数 
据 的 字段 ， 选 中 Dry-white 条 目 作为 重 受 数据 ， 如 前 文 的 图 6.108 所 示 。 然 后 单 击 Start 按 
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数据 控 气 与 机 器 学 习 
钮 启动 预测 ， 很 不 幸 ， 系 统 会 弹出 如 图 6.118 所 示 的 错误 对 话 框 ， 指 示 由 于 没有 未 来 的 重 
县 数据 因此 无 法 对 未 来 预测 。 


@ se fret ed he ed fie toting 
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ro fure overlay deta avalable Use ahcldcut 


图 6.118 错误 对 话 框 
既然 系统 无 法 预测 未 来 ， 那 就 不 要 要 求 它 预测 未 来 就 行 了 。 切 换 至 Output 标签 页 ， 取 
消 选 中 Output future predictions beyond end of series 复 选 框 和 Graph future predictions beyond 
end of series 复 选 框 ， 再 次 单 击 Start 按钮 ， 这 次 没有 错误 提示 ， 如 图 6.119 所 示 。 在 文本 
输出 的 Transformed training data 部 分 ， 能 找到 Dry-white 作为 预测 模型 的 输入 字段 。 
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6.119 不 让 预测 器 预测 未 来 


因为 下 面 需要 预测 未 来 ， 因 此 还 是 取消 使 用 重 到 数据 。 

下 面 使 用 Evaluation 标签 页 和 Output 标签 页 。 默 认 选 中 MAE 和 RMSE 作为 评估 度 
量 ， 现 在 取消 这 两 项 选择 ， 另 外 选中 DAC， 再 次 单 击 Start 按钮 ， 输 出 的 Evaluation on test 
data 部 分 会 包含 Direction accuracy 度量 。 

Evaluation 标签 页 中 还 有 两 个 测试 选项 ， 选 中 Evaluate on training 和 Evaluate on held 
out training 复 选 框 ， 并 将 第 二 个 复 选 框 后 的 文本 框 里 的 0.3 更 改 为 20， 即 留存 20 条 记录 作 
为 测试 。 确 保 选中 Output 标签 页 中 的 Output predictions at step 复 选 框 ， 并 将 Step to output 
微调 框 中 的 数字 更 改 为 5( 提 前 5 步 预测 )， 再 次 单 击 Start 按钮 ， 在 文本 输出 中 可 以 找到 如 
下 文本 : 


=—= Predictions for training data: Fortified (5-steps ahead) 一 一 


inst# actual predicted error 
Ey 4198 3735.5167 -462.4833 


18 
9 


167 
168 
169 
170 
7 


4935 4105.5926 -829.4074 
5618 4986.6843 -631.3157 


2526 2166.9554 -359.0446 


2 2656.2799 
于 1010.8848 2 
要 1455.4003 
2 2077.4078 


= Predictions for test data: Fortified (5-steps ahead) 一 


inst# 
4 
173 


187 
188 
189 
190 
L191 


actual predicted error 
2659 1884.8736 -774.1264 
2354 2048.8564 -305.1436 


3179 2446.2144 -732.7856 


? 1882.4437 ? 
? 1937.3788 党 
2? 1497.4459 2 
2? 2055.4242 和 


上 面 的 输出 分 为 两 个 部 分 ， 第 一 部 分 是 Predictions for training data( 预 测 训 练 数据 )， 第 
二 部 分 是 Predictions for test data( 预 测 测试 数据 )。 这 里 需要 注意 两 个 问题 : 第 一 ， 由 于 前 面 
指定 留存 的 记录 数 为 20， 因 此 测试 数据 记录 的 编号 为 172 到 191， 共 20 条 记录 ; 第 二 ， 
输出 中 的 问号 “?” 表 示 提 前 5 步 预测 无 法 获取 的 数据 。 

在 Output 标签 页 中 ， 选 中 Graph target at steps 复 选 框 ， 确 保 Target to graph 下 拉 列 表 
框 中 选择 的 为 Fortified 选项 ， 在 Steps to graph 文本 框 中 输入 “1-3,6,12”， 即 图 示 提前 1、 
2、3、6 和 12 步 的 预测 结果 。 然 后 再 次 单 击 Start 按钮 ， 结 果 如 图 6.120 所 示 。 图 中 有 六 条 
折线 ， 分 别 代表 真实 值 、 提 前 1 步 预测 值 、 提 前 2 步 预测 值 、 提 前 3 步 预测 值 、 提 前 6 步 
预测 值 和 提前 12 步 预测 值 。 
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6.120 ”预测 结果 
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6.1 什么 是 贝 叶 斯 网 络 ? 贝 叶 斯 网 络 有 什么 好 处 ? 

6.2 ” 贝 叶 斯 算法 假定 数据 集 必 须 满足 什么 要 求 ? 

6.3 对 于 Weka 自 带 的 数据 集 ，iris 数据 集 可 以 使 用 哪 几 个 贝 叶 斯 分 类 器 ? 
ReutersCom-train 和 glass 数据 集 呢 ? 

6.4 完成 6.2.2 节 中 的 “图 形 界面 编辑 操作 ”实验 。 

6.5 ”说 明 在 神经 网 络 中 ，Num of Epochs、Momentum、Leaming Rate 对 网 络 学 习 的 
影响 。 

6.6 ”怎样 用 ROC 曲线 判断 一 个 模型 的 好 坏 ? 如 何 看 待 图 6.85 所 示 的 ROC 曲线 与 其 
他 指标 不 吻合 的 现象 ? 

6.7 滞后 变量 、 周 期 性 属性 、 重 县 数据 这 些 字段 有 何 用 处 ? 


Y ee 
压 第 7 章 
Weka API 


探索 者 界面 、 知 识 流 界面 和 实验 者 界面 等 图 形 化 工具 在 大 多 数 情况 下 
对 于 普通 用 户 来 说 已 经 足够 使 用 。 但 Weka 的 功能 远 不 止 这 些 ， 它 还 明确 
定义 了 应 用 程序 编程 接口 API， 这 使 得 它 很 容易 “ 误 入 ”到 用 户 自己 的 应 
用 项 目 中 。 本 章 介 绍 如 何 使 用 Java 源 代码 来 实现 常见 数据 的 挖掘 任务 ， 
主要 内 容 包 括 加 载 数据 、 保 存 数据 、 处 理 选 项 、 内 存 数据 集 处 理 、 过 滤 、 
分 类 、 聚 类 、 属 性 选择 、 可 视 化 和 序列 化 ， 最 后 以 文本 分 类 为 例 ， 介 绍 如 
实现 一 个 具体 的 挖 握 任务 。 
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7.1 加 载 数 据 


在 应 用 过 滤器 、 分 类 器 或 聚 类 器 之 前 ， 必 须 先 加 载 数据 。Weka 能 让 用 户 加 载 多 种 文 
件 格式 的 数据 文件 ， 还 支持 从 数据 库 中 加 载 数据 。 如 果 使 用 数据 库 ， 需 要 确保 已 经 正确 建 
立 了 JDBC 数据 库 连 接 ， 并 且 数 据 库 驱 动 程序 已 经 包含 在 CLASSPATH 环境 变量 中 。 

如 下 三 个 Java 类 常用 于 在 内 存 中 存储 数据 。 

(1) weka.core.Instances 类 : 该 类 容纳 完整 的 数据 集 。 采 用 基于 行 的 数据 结构 ， 可 以 通 
过 调用 instance(inb 方 法 获取 单个 行 ， 其 方法 参数 为 基于 0 的 行 索 引 ; 可 以 通过 调用 
attribute(int) 方 法 访问 列 信息 ， 返 回 weka.core.Attribute 对 象 。 

(2) weka.core.Instance 类 : 该 类 封装 单个 行 ， 基 本 上 是 一 个 原始 double 数组 的 包装 
器 。 因 为 该 类 没有 包含 列 的 类 型 信息 ， 所 以 总 是 需要 访问 weka.core.Instances 对 象 。 可 参 
见 dataset 方法 和 setDataset 方法 ， 前 者 返回 本 实例 所 使 用 的 数据 集 ， 后 者 设置 数据 集 的 引 
用 。weka.core.SparseInstance 类 用 于 稀 玻 数据 的 情形 ， 以 节约 存储 空间 。 

(3) weka.core.Attribute 类 : 该 类 容纳 数据 集中 单个 列 的 类 型 信息 。 它 存储 属性 的 类 
型 ， 以 及 标 称 型 属性 的 标签 、 字 符 串 型 属性 的 可 能 值 ， 以 及 关系 型 属性 的 数据 集 
(weka.core.Instances 对 象 )。 

综 上 所 述 ，Instances 对 象 相当 于 二 维 表 ，Instance 对 象 和 Attribute 对 象 分 别 存储 二 维 
表 的 行 和 列 信息 。 这 三 个 类 经 常 使 用 ， 须 熟练 掌握 其 API。 


7.1.1 从 文件 加 载 数据 


Weka 支持 多 种 数据 文件 格式 ， 其 格式 采用 文件 扩展 名 来 区 分 。 从 文件 加 载 数据 时 ， 
如 果 文 件 使 用 正确 的 扩展 名 ， 可 以 让 Weka 根据 文件 的 扩展 名 来 选择 合适 的 加 载 器 ， 可 用 
的 加 载 器 都 放置 在 weka.core.converters 包 中 ; 不 管 文件 是 否 使 用 正确 的 扩展 名 ， 都 可 以 直 
接 指 定 正 确 的 加 载 器 。 如 果 文 件 没有 正确 的 扩展 名 ， 只 能 采用 后 一 种 方法 。 

DataSource( 数 据 源 ) 类 是 weka.core.converters.ConverterUtils 类 的 内 部 类 ， 用 于 从 有 适 
当 文 件 扩展 名 的 文件 中 读 取 数 据 。 代 码 片 段 见 程序 清单 7.1。 


程序 清单 7.1 读 取 数 据 代码 片段 


Instances datal = DataSource.read("/some/where/dataset .arff"); 
Instances data2 = DataSource.read("/some/where/dataset .csv"); 
Instances data3 = DataSource.read("/some/where/dataset .xrff"); 


如 果 要 加 载 的 文件 与 加 载 器 通常 关联 的 文件 扩展 名 不 同 ， 用 户 只 能 直接 指定 加 载 器 。 
程序 清单 7.2 展示 如 何 加 载 CSV 文件 。 


程序 清单 7.2 ”指定 加 载 器 加 载 CSV 文件 代码 片段 


CSVLoader loader = new CSVLoader(); 
loader.setSource (new File("/some/where/some.data")); 
Instances data = loader.getDataset (); 


王 注意 :， 并 不 是 所 有 的 文件 格式 都 可 以 存储 类 别 属性 的 信息 。 例 如 ，ARFF 格式 不 能 
存储 类 别 属性 的 信息 ， 但 XRFF 格式 却 可 以 。 如 果 将 来 需要 使 用 分 类 器 或 其 
他 功能 ， 必 须 先 设置 类 别 属 性 ， 可 以 调用 Instances 对 象 的 setClassIndex(int) 
方法 进行 设置 。 
程序 清单 7.3 设置 类 别 属性 代码 片段 
// 使 用 第 一 个 属性 作为 类 别 属性 


if (data.classIndex() = -1) 
data.setClassIndex (0); 
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// 使 用 最 后 一 个 属性 作为 类 别 属性 
if (data.classIndex() 一 -1) 
data.setClassIndex (data.numAttributes() - 1); 


7.1.2 ”从 数据 库 加 载 数 据 


从 数据 库 中 加 载 数据 ， 可 以 使 用 wekaexperimentInstanceQuery 类 或 者 
weka.core.converters.DatabaseLoader 类 。 两 者 的 区 别 是 : InstanceQuery 类 允许 用 户 检索 稀 
玖 数据 ， 而 DatabaseLoader 类 可 以 增 量 检索 数据 。 

使 用 InstanceQuery 类 的 示例 见 程序 清单 7.4。 


程序 清单 7.4 使 用 InstanceQuery 类 


InstanceQuery query = new InstanceQuery () 7 
query. setDatabaseURL ("jdbc url"); 
query.setUsername ("the user"); 
query.setPassword ("the password"); 
query.setQuery ("select * from tableName"); 
// 如 果 数 据 是 稀疏 的 ， 那 么 可 以 使 用 下 一 条 语句 

// query.setSparseData (true) 

Instances data = query.retrieveInstances(); 


使 用 DatabaseLoader 类 进行 批量 检索 的 示例 见 程序 清单 7.5。 
程序 清单 7.5 ”批量 检索 


DatabaseLoader loader = new DatabaseLoader (); 
loader.setSource ("jdbc_url"，"the_ user", "the password"); 
loader.setQuery ("select * from tableName"); 

Instances data = loader.getDataSet () 7 


使 用 DatabaseLoader 类 进行 增 量 检索 的 示例 见 程 序 清单 7.6。 
程序 清单 7.6 增 量 检 索 


DatabaseLoader loader = new DatabaseLoader (); 
loader.setSource ("jdbc url", "the user", "the password"); 
loader.setQuery ("select * from tableName"); 

// 可 能 需要 指定 哪些 列 构成 主 关键 字 ， 调 用 setKeys 方法 

// loader.setKeys ("coll,col2,..."); 
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Instances structure = loader.getstructure(); 
Instances data = new Instances (structure); 
Instance inst; 
while ((inst = loader.getNextInstance (structure)) != null) 
data.add (inst); 


狂 注意 ; 不 是 所 有 的 数据 库 系统 都 支持 增 量 检索 。 并 不 是 所 有 的 查询 都 只 有 一 个 唯一 
的 主 关键 字 ， 有 时 会 具有 复合 关键 字 ， 这 时 ， 增 量 检索 行 可 以 用 
setKeys(String) 方 法 来 提供 必要 的 列 ， 其 形式 是 以 喜 号 分 隔 的 列 的 列表 。 如 果 
不 能 以 增 量 方式 检索 数据 ， 就 一 次 先 完全 加 载 到 内 存 ， 然 后 再 一 行 一 行 地 进 


7.1.3 手把手 教 你 用 


1. IDE 环境 配置 


本 书 以 Eclipse 和 MySQL 作为 集成 开发 环境 ， 因 此 ， 只 讲述 这 两 个 工具 的 环境 设置 。 

开发 环境 如 下 : Eclipse 版 本 Mars(4.53)， 数 据 库 使 用 MySQL 5.5， 数 据 库 连 接 驱 动 使 
用 mysql-connector-java-5.1.6.jar。 这 里 假设 Eclipse 和 MySQL 都 已 安装 好 ， 如 果 读 者 对 如 
何 安装 Eclipse 和 MySQL 有 疑问 ， 请 参考 相关 技术 书籍 。 

首先 ， 启 动 Eclipse， 进 入 工作 台 (WorkBench)， 选 择 File | New | Java Project 菜单 项 ， 
新 建 一 个 名 称 为 weka 的 项 目 。 然 后 在 Package Explorer 中 ， 右 击 新 建 的 weka 项 目 ， 在 弹 
出 的 快捷 菜单 中 选择 Build Path | Configure Build Path 菜单 项 ， 弹 出 如 图 7.1 所 示 的 
Properties for weka( 属 性 配置 ) 窗 口 。 

单 击 窗口 右边 的 Add Library 按钮 ， 弹 出 如 图 7.2 所 示 的 Add Library( 添 加 库 ) 窗 口 。 


Add Library 
Selece the lorany ype to add 


7.1 Properties for weka 窗口 图 7.2 Add Library 窗口 


选择 User Library 条 目 ， 单 击 Next 按钮 ， 打 开 如 图 7.3 所 示 的 添加 用 户 库 界 面 。 

单 击 图 7.3 所 示 窗 口 右边 的 User Libraries 按钮 ， 弹 出 Preferences 窗口 。 单 击 New 按 
钮 ， 为 用 户 库 取 一 个 有 意义 的 名 称 ， 如 wekalibs。 然 后 单 击 Add JARs 按钮 ， 添 加 如 下 jar 
文件 : weka.jar、figtree.jar、jmathplot.jar、prefuse.jar 和 mysql-connector-java-5.1.6.jar。 如 
果 要 使 用 诸如 timeseriesForecasting 等 附加 功能 ， 必 须 添 加 所 需 的 jar 文件 ， 完 成 后 的 窗口 
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如 图 7.4 所 示 。 


UserLibrary 
Solece 3 library to add to the dasspath, 


Use orariee 


7.3 ”添加 用 户 库 界面 7.4 添加 jar 文 件 
最 后 ， 单 击 OK 或 Finish 按钮 结束 配置 。 


逮 注意 : 上述 过 程 只 需要 在 第 一 次 配置 的 时 候 完成 就 可 以 了 ， 以 后 只 需要 在 Java 项 目 
中 添加 用 户 库 即 可 。figtree.jar、jmathplot.jar 和 prefuse.jar 可 以 在 Weka 安装 
目录 下 wekaexamples.zip 文件 的 lib 目录 中 找到 ， 该 zip 压缩 文件 中 还 有 很 多 
Java 编程 示例 ， 是 重要 的 参考 资料 。 


2. 加 载 ARFF 文件 


本 示例 采用 两 种 方式 加 载 数 据 集 文件 ， 第 一 种 方式 调用 DataSource 类 的 read 方法 ， 这 
适合 文件 扩展 名 与 数据 集 格式 匹配 的 情形 ， 第 二 种 方式 直接 指定 加 载 器 ， 再 调用 加 载 器 的 
getDataSet 方法 。 由 于 本 例 中 的 文件 扩展 名 与 数据 集 格式 相 匹配 ， 因 此 使 用 两 种 方式 都 会 
成 功 。 加 载 数据 集 文件 后 ， 直 接 在 控制 台 打 印 出 数据 集 的 内 容 。 

在 加 载 数据 集 文件 时 ， 不 管 是 调用 DataSource 的 read 方法 还 是 调用 所 指定 加 载 器 的 
getDataSet 方法 ， 都 有 可 能 会 发 生 一 些 例外 ， 如 找 不 到 文件 、 文 件 已 坏 、 文 件 格式 不 正确 
等 。 在 Java 中 有 两 种 处 理 方式 : 第 一 种 是 在 可 能 抛 出 例外 的 方法 中 使 用 throws 语句 进行 
声明 ， 继 续 抛 出 异常 对 象 ， 本 示例 采用 这 种 方式 ; 第 二 种 是 使 用 try…catch 结构 对 例外 进 
行 捕获 和 处 理 ， 下 一 个 示例 采用 这 种 方式 。 

示例 代码 见 程序 清单 7.7。 


程序 清单 7.7 加 载 ARFF 文件 
Package wekalearning.dataset.1lo0addata; 


import weka.core.Instances; 
import weka.core.converters.ArffLoader; 
import weka.core.converters.ConverterUtils.DataSource; 


import java.io.File; 


Public class LoadArffFile { 
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public static void main(String[] args) throws Exception { 
// 使 用 DataSsource 类 的 read 方法 来 加 载 ARFE 文件 
System. out-println ("\nNn 使 用 DataSource 类 的 read 方法 来 加 载 ARFF 文件 ") ; 
// 同样 也 要 捕获 程序 异常 ， 这 里 已 抛 出 
Instances datal = DataSource. 
read("C:/Weka-3-7/data/weather .nominal .arff"); 
System. out.println ("\n 数据 集 内 容 : ") ; 
System. out.println (datal); 


// 使 用 直接 指定 加 载 器 的 方法 来 加 载 ARFF 文件 

System. out.println ("\nNn 使 用 直接 指定 加 载 器 的 方法 来 加 载 AREEF 文件 ") ; 

// 创建 一 个 ArffLoader 类 实例 

ArffLoader loader = new RrffLoader () 7 

// 加 载 ARFF 文件 ， 

// 此 时 从 系统 中 读 文 件 时 要 捕获 异常 ， 这 里 在 main 函数 中 抛 出 

loader.setSource (new File("C:/Weka-3-7/data/weather.numeric.arff")); 
Instances data2 = loader.getDataSet (); 

System. out.println("\n 数据 集 内 容 :") ; 

System.out.println (data2); 


} 


3. 加 载 XRFF 文件 


本 示例 加 载 XRFF 格式 的 数据 文件 。 为 了 更 清楚 地 说 明 问 题 ， 有 意 使 文件 扩展 名 与 数 
据 集 格 式 不 相 匹配 ， 这 样 ， 调 用 DataSource 类 的 read 方法 肯定 不 会 成 功 ， 只 能 采用 直接 指 
定 加 载 器 的 方式 。 

首先 准备 数据 文件 ， 在 探索 者 界面 中 打开 data 目录 下 的 weather.nominal.arff 文件 ， 在 
Preprocess 标签 页 中 单 击 Save 按钮 ， 打 开 “ 保 存 ” 对 话 框 ， 导 航 至 data 目录 下 ， 选 择 文件 
类 型 为 XRFF data files(*.xrfD， 修 改 文件 名 为 weather.nominal.xrff。 然 后 打开 Windows 资 
源 管理 器 ， 将 新 保存 文件 的 后 缀 名 修改 为 .xsml， 即 weather.nominal.xml。 

示例 代码 见 程序 清单 7.8。 


程序 清单 7.8 加载 XRFF 文件 

Package wekalearning.dataset.loaddata7 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.core.converters .XRFFLOader; 

import java.io.File; 


Public class LoadxrffFile { 


public static void main (String[] args) { 


} 


对 注意 : 


// 使 用 Datasource 类 的 read 方法 来 加 载 XRFE 文件 
System. out.println ("使 用 DataSource 类 的 read 方法 来 加 载 XRFF 文件 ") ; 
System. out.println ("由 于 文件 扩展 名 与 数据 集 格式 不 匹配 ， 肯 定 加 载 失败 ") ; 
// 同样 也 要 捕获 程序 异常 ， 这 里 已 抛 出 
try { 
Instances data = DataSource 
.read("C:/Weka-3-7/data/weather .nominal .xml1"); 
System. out.println("\n 数据 集 内 容 : ") ; 
System.out.println (data); 
} catch (Exception e) { 
System. out.println ("加 载 文件 失败 !") ; 
} 


System. out.println("\n\n 使 用 直接 指定 加 载 器 的 方法 来 加 载 XREF 文件 ") ; 
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System. out.println ("由 于 直接 指定 符合 数据 集 格式 的 加 载 器 ， 肯 定 加 载 成 功 ") ; 


try { 
XRFFLOader loader = new XRFFLOader () 7 
loader .setSource (new 

File("C:/Weka-3-7/data/weather.nominal .xml1")); 

Instances data = loader.getDatasSet (); 
System.out.println("\n 数据 集 内 容 :") ; 
System.out.println (data); 

} catch (Exception e) { 
System. out.println (" 加 载 文件 失败 !") ; 

} 


代码 中 采用 try…catch 结构 对 例外 进行 捕获 和 处 理 。 


4. 从 数据 库 加 载 

要 使 用 数据 库 ， 必 须 先 在 Weka 中 设置 数据 库 连接 ， 具 体 步 又 请 参见 本 书 1.4 节 。 

首先 ， 在 数据 库 中 新 建 一 张 数 据 库 表 并 填充 数据 ， 这 里 使 用 SQL 语句 建 表 ， 并 插入 数 
据 。SQL 文件 内 容 如 程序 清单 7.9 所 示 ， 在 数据 库 中 批量 执行 这 些 SQL 语句 ， 就 可 建立 一 
张 名 称 为 weather 的 数据 库 表 。 


程序 清单 7.9 weathersql 


CREATE TABLE 'weather' ('outlook' varchar (20) ，'temperature' varchar (20) ， 
"humidity' varchar(20), 'windy' varchar(20), 'play' varchar (20) ) ; 


INTO 'weather' ('outlook', 'temperature', ‘'humidity', ‘'windy', 


('sunny', 'hot', 'high', 'FALSE', 'no'); 


INTO 'weather' ('outlook', 'temperature', ‘'humidity', ‘'windy', 


('sunny', 'hot', ‘'high', 'TRUE', "no'); 


('overcast', 'hot', ‘high', 'FALSE', 'yes'); 


'play') 


'play') 


INTO 'weather' ('outlook', 'temperature', 'humidity', 'windy', 'play') 
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然后 编写 程序 实现 从 数据 库 中 检索 数据 。 本 例 分 别 使 用 InstanceQuery 类 和 DatabaseLoader 
类 从 数据 库 中 批量 检索 数据 。 代 码 如 程序 清单 7.10 所 示 ， 代 码 中 的 数据 库 连 接 字符 串 ( 数 
据 库 URL、 用 户 名 和 密码 ) 需 要 根据 自己 的 数据 库 配 置 做 一 些 相 应 的 更 改 。 代 码 还 调用 
setClassIndex 方法 将 最 后 一 个 属性 设置 为 类 别 属性 ， 方 便 以 后 使 用 分 类 器 。 


程序 清单 7.10 LoadFromDB.java 


Package wekalearning.dataset.1o0addata; 


import weka.core.Instances; 
import weka.core.converters.DatabaseLoader; 
import weka.experiment.InstanceQuery; 


public class LoadFromDB { 


Public static void main (String[] args) throws Exception { 
InstanceQuery query = null; 
Instances data = null; 


// 使 用 InstanceQuery 类 
System.out.println ("使 用 InstanceQuery 类 从 数据 库 中 检索 数据 ") ; 
query = new InstanceQuery (); 
query.setDatabaseURL ("jdbc:mysql://localhost:3306/weka"); 
query.setUsername ("weka"); 
query.setPassword ("weka"); 
query.setQuery ("select * from weather"); 
data = query.retrieveInstances (); 
// 使 用 最 后 一 个 属性 作为 类 别 属性 
if (data.classIndex() = -1) 
data.setClassIndex (data.numAttributes() - 1); 
System. out.println ("数据 集 内 容 : ") ; 
System.out.println (data); 


// 使 用 DatabaseLoader 类 进行 批量 检索 
System.out.println("\nNn 使 用 DatabaseLoader 类 从 数据 库 中 批量 检索 数据 ") ; 
DatabaseLoader loader = null; 
loader = new DatabaseLoader (); 
loader .setSource ("jdbc:mysql://localhost:3306/weka", "weka", "weka"); 
loader.setQuery ("select * from weather"); 
Instances datal = loader.getDataset (); 
// 使 用 最 后 一 个 属性 作为 类 别 属性 
if (datal.classIndex() =— -1) 
datal .setClassIndex (datal .numAttributes() - 1); 
System. out.println ("数据 集 内 容 : ") ; 
System.out.println (datal); 


1 
如 果 要 实现 增 量 检 索 ， 本 例 的 weather 数据 库 表 是 不 支持 的 ， 必 须 先 修改 该 表 ， 增 加 
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一 个 关键 字 才能 增 量 检索 行 。 由 于 天 气 数据 集 的 实例 数量 较 少 ， 增 量 检索 意义 不 大 ， 就 留 
给 读者 自己 解决 。 


7.2 保存 数据 


保存 weka.core.Instances 对 象 与 先前 的 读 取 数 据 一 样 容易 ， 尽 管 再 次 存储 数据 的 需求 
比 起 读 入 数据 到 存储 器 来 说 较为 罕见 。 以 下 分 别 介绍 如 何 将 数据 保存 至 文件 和 数据 库 中 。 


7.2.1 保存 数据 至 文件 


所 有 的 保存 器 (saver) 都 位 于 weka.core.converters 包 中 ， 保 存 数 据 既 可 以 让 Weka 选择 
合适 的 转换 器 ， 也 可 以 指定 显 式 转换 器 。 如 果 Weka 不 认识 要 保存 数据 的 文件 扩展 名 ， 只 
能 使 用 后 一 种 方法 。 

如 果 文 件 扩展 名 与 数据 文件 格式 相符 (一 般 情 况 都 是 这 样 )， 可 以 使 用 DataSink 类 ， 该 
类 为 weka.core.converters.ConverterUtils 的 内 部 类 。 示 例 代 码 见 程序 清单 7.11 。 


程序 清单 7.11 使 用 DataSink 类 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 为 ARRFF 

DataSink.write ("/some/where/data.arff"，data) 7 
// 保存 为 CSV 


DataSink.write ("/some/where/data.csv"，data) 7 
程序 清单 7.12 是 明确 指定 CSVSaver 转换 器 的 一 个 示例 。 


程序 清单 7.12 ”明确 指定 转换 器 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 为 CSV 

CSVSaver saver = new CSVSaver () ; 
saver.setInstances (data); 

saver.setFile (new File("/some/where/data.csv")); 
saver .writeBatch(); 
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7.2.2 ”保存 数据 至 数据 库 


相对 于 保存 到 文件 ，Weka 将 数据 保存 到 数据 库 的 操作 并 没有 很 明显 的 区 别 。 用 户 需 
要 了 解 DatabaseSaver 转换 器 。 与 DatabaseLoader 加 载 器 一 样 ， 数 据 库 保 存 器 也 可 以 使 用 
批量 模式 或 增 量 模式 来 存储 数据 。 

以 下 第 一 个 示例 展示 如 何 将 数据 以 批 处 理 模 式 进行 保存 (其 方法 不 难 )。DatabaseSaver 
类 用 于 保存 数据 到 数据 库 ， 首 先 实例 化 DatabaseSaver 对 象 ， 调 用 setDestination 方法 设置 
数据 库 URL、 用 户 名 和 密码 ， 调 用 setTableName 方法 设置 数据 库 表 的 名 称 ， 
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setRelationForTableName(false) 方 法 不 使 用 关系 名 直接 作为 表 名 。 


程序 清单 7.13 ” 批 处 理 模式 保存 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 数据 到 数据 库 

DatabaseSaver saver = new DatabaseSaver(); 
saver.setDestination ("jdbc url", "the user", "the password"); 
// 在 这 里 明确 指定 表 名 

saver.setTableName ("tableName"); 

saver .setRelationForTableName (false); 

// 或 者 可 以 只 更 新 数据 集 的 名 称 ， 并 把 关系 名 称 作为 表 名 
// saver.setRelationForTableName (true) 

// data.setRelationName ("tableName2"); 
Saver.setInstances (data); 

Saver .writeBatch (); 


增 量 地 保存 数据 需要 做 多 一 点 的 工作 ， 用户 必须 调用 setRetrieval 
(DatabaseSaver.INCREMENTAL) 方 法 指定 增 量 写 入 数据 ， 并 在 保存 全 部 数据 后 调用 
writeIncrementaltnul) 方 法 通知 保存 器 。 代 码 片段 见 程序 清单 7.14。 


程序 清单 7.14 增 量 模式 保存 
// 要 保存 的 数据 结构 


Instances data = ... 

// 保存 数据 到 数据 库 

DatabaseSaver saver = new DatabaseSaver (); 
saver.setDestination("jdbc url", "the user", "the password"); 
// 在 这 里 明确 指定 表 名 

saver.setTableName ("tableName2"); 

saver .setRelationForTableName (false); 

// 或 者 可 以 只 更 新 数据 集 的 名 称 

// saver.setRelationForTableName (true) 7 

// data.setRelationName ("whatsoever2"); 

Saver .setRetrieval (DatabaseSaver .INCREMENTAL); 
saver.setstructure (data); 

count = 0; 

for (int i = 0; i < data.numInstances(); i++) { 
saver .writeIncremental (data.instance (i)); 


} 

// 通知 保存 器 已 经 完成 

Saver .writeIncremental (null1); 
7.2.3 ”手把手 教 你 用 


1. 保存 数据 至 文件 


本 示例 读 取 ARFF 格式 的 数据 文件 ， 然 后 保存 为 CSV 格式 的 文件 ， 即 完成 格式 转换 
的 功能 。 


© 


由 于 文件 扩展 名 与 数据 文件 格式 相符 ， 因 此 既 可 以 使 用 DataSink 类 ， 也 可 以 明确 指定 
CSVSaver 转换 器 。 
代码 如 程序 清单 7.15 所 示 。 运 行程 序 后 ， 在 目标 子 目 录 中 可 以 找到 iris.csv 文件 和 


iris2.csv 文件 。 


程序 清单 7.1S ARFF2CSVjava 


package wekalearning.dataset.savedata7 


import java. 
import weka. 
import weka. 
.Core.converters.ConverterUtils.Datasink; 
import weka. 


import weka 


/太太 


io.File; 
core.Instances; 
Core.converters.CSVSaver; 


core.converters.ConverterUtils.DataSource; 


* ARFEF 文件 转换 为 CSV 文件 


*y 


public class ARFF2CSV { 


public static void main (String[] args) { 


try { 


// 加 载 数据 
Instances data = new Instances( 

DataSource. read("C:/Weka-3-7/data/iris.arff")); 
System.out.println ("完成 加 载 数 据 ") ; 


// 使 用 Datasink 类 ， 保 存 为 CSV 
Datasink.write("C:/Weka-3-7/data/iris.csv", data); 
System. out.println ("完成 使 用 DataSink 类 保存 数据 ") ; 


// 明确 指定 转换 器 ， 保 存 为 CSV 

CSVSaver saver = new CSVSaver (); 

saver.setInstances (data); 

saver.setFile (new File("C:/Weka-3-7/data/iris2.csv")); 
Saver .writeBatch (); 

System. out.println (" 完 成 指定 CSVSaver 转换 器 保存 数据 ") ; 


} catch (Exception e) { 


} 


} 


e.printstackTrace (); 


2. 保存 数据 至 数据 库 


本 示例 首先 从 文件 加 载 数 据 ， 然 后 以 批量 方式 或 增 量 方式 将 数据 保存 到 数据 库 中 。 代 
码 如 程序 清单 7.16 所 示 ，DatabaseSaver 类 用 于 保存 数据 到 数据 库 。 首 先 实 例 化 
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DatabaseSaver 对 象 ， 调 用 setDestination 方法 设置 数据 库 连 接 字符 串 ，setTableName 方法 
用 于 设置 数据 库 表 的 名 称 ，setRelationForTableName(false) 方 法 不 使 用 关系 名 作为 表 名 ， 如 
果 需 要 将 关系 名 作为 表 名 ， 修 改 方法 参数 为 true 即 可 。 使 用 增 量 模式 ， 应 调用 setRetrieval 
(DatabaseSaver.INCREMENTAL) 方 法 ， 并 调用 setStructure 方法 设置 表 结 构 ， 循 环 调用 
writeIncremental 方法 插入 记录 ， 在 完成 插入 之 后 ， 记 得 调用 writeIncrementalnull) 方 法 通知 


保存 器 。 


程序 清单 7.16 Save2DB.java 


Package wekalearning.dataset.savedata; 


import weka.core.Instances; 
import weka.core.converters.ConverterUtils.DataSource; 
import weka.core.converters.DatabaseSaver; 


/** 


* 将 数据 集 保存 到 数据 库 


SF 


public class Save2DB { 


public static void main (String[] args) { 


try { 


// 加 载 数据 


Instances data = new Instances( 
DataSsource. read("C:/Weka-3-7/data/iris.arff")); 
System. out.println ("完成 加 载 数据 ") ; 


// 批量 方式 保存 数据 到 数据 库 


DatabaseSaver saver = new DatabaseSaver(); 


saver.setDestination ("jdbc:mysql://localhost:3306/weka", "weka", 


"weka") ; 
// 在 这 里 明确 指定 表 名 

saver.setTableName ("iris"); 

Saver .setRelationForTableName (false); 
saver.setInstances (data); 

Saver .writeBatch (); 


System. out.println ("完成 批量 方式 保存 数据 ") ; 
// 增 量 方式 保存 数据 到 数据 库 


DatabaseSaver saver2 = new DatabaseSaver () 


saver2.setDestination ("jdbc:mysql://localhost:3306/weka", "weka", 


"weka") 7 
// 在 这 里 明确 指定 表 名 
Saver2.setTableName ("iris2"); 
Saver2 .setRelationForTableName (false); 
Saver2 .setRetrieval (DatabaseSaver . INCREMENTAL); 
saver2.setstructure (data); 
for (int i = 0; i < data.numInstances(); i++) { 
Saver2 .writeIncremental (data.instance (i)); 


} 
// 通知 保存 器 已 经 完成 
Saver2 .writeIncremental (nul1) 7 


System. out.println ("完成 增 量 方式 保存 数据 ") ; 


} catch (Exception e) { 
e.printstackTrace (); 


} 


运行 程序 之 后 ， 会 在 数据 库 中 创建 两 个 一 模 一 样 的 数据 库 表 iris 和 iris2， 每 个 表 中 都 
有 150 条 记录 ， 如 图 7.5 所 示 。 
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图 7.5 运行 结果 
7.3 处 理 选 项 


如 果 要 对 分 类 器 等 对 象 进行 配置 ， 可 以 将 希望 改变 的 属性 通过 调用 适当 的 get 或 set 方 
法 (这 在 Java 中 称 为 Getters 和 Setters) 进 行 设置 ， 前 者 读 取 属 性 ， 后 者 设置 属性 。 或者， 如 
果 分 类 器 等 对 象 的 Java 类 实现 了 weka.core.OptionHandler 接口 ， 用 户 就 可 以 使 用 该 对 象 提 
供 的 功能 来 解析 命令 行 选 项 ， 例 如 ， 通 过 setOptions(String[]) 方 法 来 设置 选项 ， 方 法 参数 为 
选项 数组 ， 通 过 getOptions() 方 法 返回 String[] 数 组 以 获取 选项 。 上 述 两 种 方法 之 间 的 区 别 
是 : setOptions(String[]) 方 法 不 能 用 于 增 量 地 设置 选项 ， 而 set 方法 则 没有 这 一 限制 。 没 有 
在 选项 数组 中 明确 指定 的 所 有 的 其 他 选项 ， 一 律 使 用 默认 值 。 


7.3.1 选项 处 理 方法 


处 理 选 项 最 基本 的 方法 是 手工 组 装 String 数组 。 下 面 的 示例 使 用 单个 选项 (“-R”) 接 
受 一 个 参数 (“1”) 来 创建 一 个 选项 数组 (其 含义 是 删除 第 一 个 属性 )， 并 使 用 该 选项 初始 化 
Remove 过 滤器 。 代 码 片段 见 程序 清单 7.17。 


程序 清单 7.17 手工 组 装 字符 串 数 组 


String[] options = new String[2]; 
options [0] = "-R"7 
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options[1] = "1"; 

Remove rm = new Remove(); 

rm. setOoptions (options); 

由 于 setOptions(String[]) 方 法 需要 完全 解析 并 正确 拆 分 数组 ， 可 以 通过 控制 台 的 命令 提 
示 符 得 到 完整 的 选项 。 使 用 这 种 方法 最 容易 犯 两 个 错误 : 第 一 ， 将 选项 和 参数 组 合 在 一 
起 。 例 如 ， 使 用 “-R 1” 完 整地 作为 字符 串 数 组 的 一 个 元 素 是 不 正确 的 ，Weka 会 输出 未 知 
选项 “R 1” 的 错误 消息 。 第 二 ， 尾 随 空 白 。 使 用 “-R ”(R 后 接 一 个 空格 字符 ) 也 不 正 
确 ， 因 为 系统 不 会 自动 删除 尾随 空格 ， 因 此 无 法 识别 选项 “R ”。 

避免 上 述 问 题 最 简单 的 方法 是 : 调用 weka.core.Utils 类 的 splitOptions(String) 方 法 ， 自 
动 将 命令 行 字符 串 拆 解 并 生成 一 个 String 数组 ， 然 后 设置 选项 。 代 码 参见 程序 清单 7.18。 

程序 清单 7.18 ”调用 Utils.splitOptions(String) 方 法 

String[] options = Utils.splitOptions("-R 1"); 


由 于 splitOptions 方法 会 忽略 空格 ， 因 此 使 用 “ -R 1”( 前 空格 ) 或 “-R 1 ”( 后 空格 ) 作 
为 参数 都 会 返回 相同 的 正确 结果 : “-R1”。 
不 一 定 非 要 像 程序 清单 7.17 中 的 Remove 过 滤器 那样 使 用 setOptions(String[]) 方 法 ， 下 
的 代码 片段 展示 如 何 使 用 属性 的 set 方法 来 完成 同样 的 功能 。 
程序 清单 7.19 使 用 属性 的 set 方法 


Remove rm = new Remove () 7 
rm.setAttributeIndices ("1"); 


为 了 找 出 哪个 选项 属于 哪 一 个 属性 ， 即 对 应 的 get 和 set 方法 ， 最 好 先 检视 
setOptions(String[]) 和 getOptions() 方 法 。 这 两 个 方法 可 以 方便 地 直接 使 用 成 员 变 量 ， 用 户 只 
需要 寻找 特殊 成 员 变 量 向 外 界 提供 访问 的 方法 。 


7.3.2 手把手 教 你 用 


本 示例 采用 前 面 讲述 的 处 理 选项 的 三 种 方法 ， 移 除数 据 集 第 一 列 (outlook 列 )， 代 码 如 程 
序 清 单 7.20 所 示 。 首 先 加 载 数据 集 ， 然 后 分 别 通过 手工 组 装 String 数组 、 使 用 Utils 类 的 
splitOptions(String) 方 法 ， 以 及 使 用 属性 的 set 方法 ， 完 成 数据 集 的 过 滤 操 作 。 

程序 清单 7.20 OptionHandlerjava 

Package wekalearning.dataset .optionshandling; 


import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.Remove; 


public class OptionHandler { 


Public static void main(String[] args) throws Exception { 
// 加 载 数据 文件 


Instances data = new Instances ( 

DataSource. read("C:/Weka-3-7/data/weather.nominal .arff")); 
System. out.println ("数据 集 内 容 : ") ; 
System.out.println (data); 


// 手 工 组 装 String 数组 

System. out.println("\nNn 手工 组 装 String 数组 ") ; 
String[] options = new String[2]; 

options[0] = "-R"; 

options[1] = "1"; 

Remove rm = new Remove(); 

rm.setOoptions (options); 

/ /数据 集 过 滤 

rm.setInputFormat (data); 

Instances instl = Filter.useFilter(data, rm); 
System. out.println ("\n 数据 集 过 滤 后 的 内 容 : ") ; 
System.out.println (inst1); 


// 使 用 weka.core.Utils 类 的 splitoptions (string) 方 法 
System.out.printin("\n\n 使 用 Utils 类 的 splitoptions (String) 方 法 ") ; 
String[] options2 = Utils.splitoptions("-R 1"); 

Remove rm2 = new Remove(); 

rm2.setOptions (options2); 

Im2 .setInputFormat (data); 

Instances inst2 = Filter.useFilter(data, rm2); 

System. out.println ("\n 数据 集 过 滤 后 的 内 容 : ") ; 

System.out.println (inst2); 


// 使 用 属性 的 set 方法 

System. out.println("\n\n 使 用 属性 的 set 方法 ") ; 
Remove rm3 = new Remove () 
rm3.setAttributeIndices ("1"); 
rm3.setIinputFormat (data); 

Instances inst3 = Filter.useFilter(data, rm3); 
System. out.println("\n 数据 集 过 滤 后 的 内 容 : ") ; 
System. out.println (inst3) ; 


7.4 内 存 数据 集 处 理 


本 节 首 先 讲述 如 何在 内 存 中 创建 数据 集 ， 然 后 讲述 如 何 打 乱 数据 顺序 ， 使 之 适应 学 习 
方案 的 要 求 。 


7.4.1 在 内 存 中 创建 数据 集 


前 面 已 经 学 习 了 从 磁盘 或 数据 库 加 载 数据 集 ， 但 这 并 不 是 Weka 获取 数据 的 唯一 方 
式 ， 还 可 以 通过 编程 在 内 存 中 创建 数据 集 。 创 建 数据 集 需 要 在 内 存 中 生成 数据 集 存储 结构 
( 即 weka.core.Instances 对 象 )， 这 是 一 个 两 阶段 的 过 程 : 第 一 ， 通 过 设置 属性 定义 数据 格 
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式 ; 第 二 ， 一 行 一 行 地 添加 实际 数据 。 
1. 定义 数据 格式 


Weka 目前 支持 以 下 五 种 不 同 的 属性 类 型 。 
numeric( 数 值 型 ): 连续 变量 。 
date( 日 期 型 ): 日 期 变量 。 
nominal( 标 称 型 )， 预 定义 的 标签 。 
string( 字 符 串 型 ): 文本 数据 。 
e@ “relational( 关 系 型 )， 包含 其 他 关系 。 例 如 ， 多 个 实例 数据 组 成 的 包 (bags)。 
对 于 不 同 的 属性 类 型 ，Weka 全 都 使 用 同一 个 类 weka.core.Attribute， 但 使 用 不 同 的 构 
造 函数 ， 下 面 分 别 说 明 如 何 创 建 这 些 不 同 的 属性 对 象 。 
1) 数值 型 
这 是 最 容易 创建 的 属性 类 型 ， 因 为 仅 需 要 属性 的 名 称 ， 例 如 : 


Attribute numeric = new Attribute ("attribute name"); 


2) 日 期 型 

期 型 属性 在 Weka 内 部 与 数值 型 属性 一 样 处 理 ， 但 为 了 解析 和 显示 正确 的 日 期 值 ， 
需要 指定 日 期 格式 。 为 了 操作 简单 ，Java 的 日 期 和 时 间 都 使 用 同样 的 类 型 ， 其 格式 可 参见 
Java 文档 的 java.text.SimpleDateFormat 类 中 的 详细 解释 。 下 面 的 例子 展示 了 如 何 创建 一 个 
日 期 型 属性 ， 使 用 的 日 期 格式 为 由 连 字 符 分 隔 的 4 位 数字 的 年 、2 位 数字 的 月 份 ， 以 及 2 
位 数字 的 天 : 


Attribute date = new Attribute ("attribute name", "yyyy-MM-dd"); 


这 里 ， 表 示 月 份 的 MM 一 定 要 大 写 ， 如 果 小 写 则 表示 分 钟 。 

3) 标 称 型 

标 称 型 属性 包含 预定 义 的 标签 ， 用 户 需 要 提供 这 些 以 java.util.ArrayList<String> 对 象 存 
储 的 标签 列表 。 下 面 的 代码 片段 展示 了 如 何 创 建 一 个 有 四 个 标签 的 标 称 型 属性 : 

ArrayList<string> labels = new ArrayList<string>(); 

labels.add ("label a"); 

labels.add ("label b 

labels.add ("label c 

labels.add ("label qd"); 

Attribute nominal = new Attribute("attribute name", labels); 


4) 字符 串 型 

与 标 称 型 属性 不 同 ， 字 符 串 类 型 不 需要 存放 预定 义 的 标签 列表 ， 通 常用 于 存储 文本 数 
据 ， 即 文本 分 类 的 文档 内 容 。 字 符 串 型 属性 使 用 与 标 称 型 属性 相同 的 构造 函数 ， 但 需要 提 
供 一 个 null 值 ， 而 非 javautilArrayList<String> 的 实例 。 例 如 : 


Attribute string = new Attribute("attribute name", (ARrrayList<String>)nul1) 7 


5) 关系 型 
关系 型 属性 只 需要 在 构造 函数 中 用 weka.core.Instances 对 象 来 定义 关系 结构 。 如 下 代 


码 片段 生成 一 个 关系 型 属性 ， 包 含 两 个 属性 (一 个 数值 型 属性 和 一 个 标 称 型 属性 ) 的 关系 : 


ArrayList<Attribute> atts = new ArrayList<RAttribute> (); 

atts .add (new Rttribute ("rel.num") ) 7 

RrrayList<String> values = new RrrayList<String>()7 

values.add ("val A"); 

Values.add ("val B"); 

values.add ("val C"); 

atts.add (new Attribute ("rel.nom", values)); 

Instances rel struct = new Instances("rel", atts, 0); 

Attribute relational = new Attribute ("attribute name", rel struct); 


创建 属性 对 象 之 后 ， 使 用 java.util.ArrayList<Attribute> 对 象 将 所 有 属性 对 象 包括 进来 ， 
然后 再 创建 一 个 weka.core.Instances 对 象 ， 以 包括 属性 对 象 的 列表 。 注 意 到 Instances 对 象 
实质 就 是 数据 集 ，Weka 没有 名 称 为 Dataset 的 对 象 。 如 下 示例 创建 一 个 数据 集 ， 带 有 两 个 
数值 型 属性 和 一 个 标 称 型 类 别 属性 ， 其 中 ， 类 别 属性 的 两 个 标签 为 yes 和 no: 

Attribute numl = new Attribute ("numl"); 

Attribute num2 = new Attribute ("num2"); 

RrrayList<String> labels = new ArrayList<string>(); 

labels.add ("no"); 

labels.add ("yes"); 

Attribute cls = new Attribute("class", labels); 

ArrayList<Attribute> attributes = new ArrayList<Attribute>(); 

attributes.add (num]); 

attributes.add (num?2); 

attributes.add (cls); 

Instances dataset = new Instances ("relation name", attributes, 0); 


在 示例 的 最 后 一 行 ，Instances 构造 函数 的 第 一 个 参数 是 关系 名 称 ， 第 二 个 参数 是 属性 
对 象 ， 最 后 一 个 参数 告诉 Weka 需要 为 即将 到 来 的 weka.core.Instance 对 象 预 留 多 少 内 存 空 
间 ， 此 处 为 0 表示 不 需要 预 留 内 存 。 如 果 用 户 知道 添加 到 数据 集 的 行 数 ， 那 么 就 应 该 指定 
该 参数 ， 以 节省 扩展 内 存 开销 。 如 果 用 户 指 定 的 内 存 空间 值 比 要 添加 的 行 数 大 很 多 ， 也 没 
关系 ， 用 户 始终 可 以 调用 compactify0 方 法 削减 多 余 的 空间 ， 避 免 内 存 浪费 。 

2. 添加 数据 

定义 好 数据 集 的 结构 之 后 ， 就 可 以 一 行 一 行 地 添加 实际 数据 。 这 时 需要 使 用 
weka.core.Instance 接口 以 提供 更 大 的 灵活 性 ，weka.core.AbstractInstance 类 实现 该 接口 ， 
AbstractInstance 类 直接 派生 weka.core.DenseInstance 类 和 weka.core.SparseInstance 类 ， 这 
两 个 类 提供 了 实例 的 基本 功能 。 前 者 处 理 实例 速度 较 快 ， 是 更 为 优雅 的 面向 对 象 方法 ， 后 
者 只 存储 非 零 值 ， 因 而 可 以 节省 一 些 存储 空间 。 在 后 文 的 示例 中 ， 大 部 分 都 使 用 
DenselInstance 类 ， 很 少 使 用 SparseInstance 类 ， 但 两 者 的 处 理 非常 相似 。 

用 户 可 以 使 用 DenseInstance 类 的 两 种 构造 函数 来 实例 化 一 个 数据 行 ， 两 种 构造 函数 的 
功能 如 下 。 

(1) DenseInstance(double weight double[] attValues): 该 构造 函数 生成 一 个 指定 权重 及 
给 定 double 数组 的 DenseInstance 对 象 。 在 Weka 内 部 ， 全 部 五 种 属性 类 型 都 使 用 double 
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格式 。double 格式 表示 数值 型 和 日 期 型 肯定 没有 问题 ， 在 Java 内 部 ， 日 期 型 也 是 用 数值 
(long 型 ) 来 表示 的 。 对 于 标 称 型、 字符 串 型 和 关系 型 属性 ， 仅 仅 需要 存放 存储 值 的 索引 。 

(2) DenseInstance(int numAttributes): 该 构造 函数 生成 一 个 新 的 、 权 重 为 1.0、 全 部 值 
都 缺失 的 DenseInstance 对 象 。 

第 二 种 构造 函数 似乎 更 容易 使 有 用， 但是， 以 后 调用 DenseInstance 类 方法 来 设置 值 开销 
较 大 ， 尤 其 是 需要 加 入 大 量 行 的 时 候 。 因 此 ， 下 面 的 代码 示例 使 用 第 一 种 构造 函数 。 为 简 
单 起 见 ，Instances 对 象 data 使 用 了 前 面 介绍 的 不 同属 性 的 代码 片段 ， 包 含 了 所 有 可 能 的 属 
性 类 型 。 

对 于 每 个 实例 ， 首 先 要 新 建 一 个 double 数组 来 保存 属性 值 。 注 意 到 一 定 不 能 重复 使 用 
该 数组 ， 而 一 定 要 每 次 都 创建 一 个 新 的 数组 。 这 是 因为 Weka 在 实例 化 DenseInstance 对 象 
时 ， 只 是 对 它 进行 引用 ， 而 没有 创建 其 副本 ， 因 此 重用 就 意味 着 更 改 原 来 的 DenseInstance 
对 象 。 一 般 使 用 如 下 语句 来 新 建 一 个 double 数组 : 

double[] values = new double[data.numAttributes()]; 

然后 ， 使 用 实际 值 来 填充 double 数组 ， 以 下 列举 了 各 种 类 型 值 的 填充 方法 。 

(1) 数值 型 ， 只 设置 数值 的 值 即 可 。 例 如 : 


values[0] = 1.23; 


(2) 日 期 型 : 将 日 期 字符 串 转换 成 一 个 double 值 。 例 如 : 


values[1] = data.attribute (1) .parseDate ("2013-05-11"); 


(3) 标 称 型 :确定 标签 的 索引 。 例 如 : 
values[2] = data.attribute (2) .indexOf ("label b"); 


(4) 字符 串 型 : 使 用 addStringValue 方法 ， 确 定 字符 串 的 索引 ， 在 内 部 使 用 一 个 哈 希 
表 来 保存 所 有 的 字符 串 值 。 例 如 : 


values[3] = data.attribute (3) .addstringValue ("A string") 7 


(5) 关系 型 :首先 创建 一 个 基于 属性 的 关系 定义 的 新 Instances 对 象 以 确定 其 索引 ， 然 
后 调用 addRelation 方法 。 例 如 : 


Instances dataRel = new Instances (data.attribute(4) .relation(), 0); 
valuesRel = new double[dataRel .numAttributes()]; 

ValuesRel[0] = 2.34; 

valuesRel[1] = dataRel.attribute (1) .indexof ("val C"); 
dataRel.add (new DenseInstance(1.0, valuesRel)); 

values[4] = data.attribute(4) .addRelation (dataRel); 


最 后 ， 以 初始 化 double 数组 来 生成 Instance 对 象 ， 并 添加 至 数据 集 : 


Instance inst = new DenseInstance(1.0, values); 
data.add (inst); 


7.4.2 打 乱 数据 顺序 


学 习 算 法 很 容易 受 数据 到 达 顺 序 的 影响 ， 数 据 的 随机 化 (也 称 为 “ 洗 牌 ”，shuffling) 是 
一 种 常见 的 缓解 这 个 问题 的 方法 ， 特 别 是 重复 的 随机 化 ， 例 如 ， 在 交叉 验证 过 程 中 ， 有 利 
于 产生 更 真实 的 统计 数据 。 

Weka 为 随机 化 数据 集 提供 了 两 种 方式 。 

第 一 ， 使 用 包含 数据 本 身 的 weka.core.Instances 对 象 的 randomize(Random) 方 法 。 这 种 
方法 需要 javautiLRandom 类 的 实例 作为 参数 。 下 文 说 明 如 何 正 确实 例 化 这 样 的 对 象 。 

第 二 ， 使 用 weka.filters.unsupervised.instance 包 的 Randomize 过 滤器 。 关 于 如 何 使 用 过 
滤器 的 更 多 信息 ， 请 参见 7.5 节 。 

机 器 学 习 实 验 的 一 个 非常 重要 的 特性 ， 就 是 实验 必须 是 可 重复 的 。 相 同 实验 设置 的 第 
一 次 运行 与 后 续 的 多 次 运行 必须 能 得 到 完全 相同 的 结果 。 可 能 这 看 起 来 不 可 思议 ， 但 在 这 
种 场景 下 ， 仍 然 可 能 采用 随机 化 。 但 是 要 知道 ， 产 生 随 机 数 的 机 制 永 远 不 会 返回 一 个 完全 
随机 的 数字 序列 ， 只 会 返回 伪 随 机 的 数字 序列 。 为 了 实现 可 重复 的 伪 随 机 序列 ， 可 以 使 用 
随机 种 子 产生 器 ， 这 是 因为 使 用 相同 的 种 子 值 总 会 产生 相同 的 序列 。 

要 得 到 可 重复 的 伪 随 机 序列 ， 一 定 不 要 使 用 随机 数 生成 器 java.util.Random 类 的 默认 构 
造 函 数 ， 因 为 这 样 创建 的 对 象 每 次 都 有 可 能 产生 不 同 的 序列 。 推 荐 使 用 构造 函数 
Random(long)， 指 定 随机 数 种 子 值 作为 构造 函数 的 参数 。 

为 了 得 到 更 多 依赖 于 数据 集 的 数据 随机 化 ， 可 以 使 用 weka.core.Instances 类 的 
getRandomNumberGenerator(int) 方 法 。 该 方法 返回 一 个 java.util.Random 对 象 ， 该 随机 数 产 
生 器 对 象 的 初始 随机 种 子 依赖 于 给 定 的 种 子 ， 以 及 根据 给 定 的 种 子 从 Instances 对 象 中 随机 
选择 的 用 字符 串 表 示 的 weka.core.Instance 对 象 的 哈 希 码 。 


7.4.3 手把手 教 你 用 


1. 在 内 存 中 创建 数据 集 

本 示例 演示 如 何在 内 存 中 创建 数据 集 。 操 作 方法 分 为 如 下 四 步 : 第 一 步 ， 设 置 属性 ， 
按照 数值 型 、 标 称 型 、 字 符 串 型 、 日 期 型 和 关系 型 的 顺序 ， 分 别 创建 五 种 不 同类 型 的 属性 
对 象 ， 第 二 步 ， 创 建 包含 属性 对 象 列表 的 Instances 对 象 ， 第 三 步 ， 添 加 数据 ;第 四 步 ， 输 
出 数据 。 

代码 如 程序 清单 7.21 所 示 ， 代 码 中 有 详细 的 注释 ， 需 要 仔细 研究 两 点 : 第 一 ， 如 何 设 
置 各 种 类 型 的 属性 ;第 二 ， 如 何 添加 数据 。 


程序 清单 7.21 CreateInstances.java 


Package wekalearning.dataset .memory; 
import weka.core.Attribute; 
import weka.core.DenseInstance; 


import weka.core.Instances; 


import java.util.ArrayList; 
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— WEKAR 


/ 二 到 
* 使 用 不 同属 性 类 型 生成 weka. core.Instances 对 象 
public class CreateInstances { 


/*# 

* 生成 Instances 对 象 并 以 ARFF 格式 输出 到 控制 台 

wp 

public static void main (String[] args) throws Exception { 
ArrayList<Attribute> atts; 
ArrayList<Attribute> attsRel; 
RrrayList<String> attVals; 
RrrayList<String> attValsRel; 
Instances data; 
Instances dataRel; 
double[] vals; 
double[] valsRel; 
int i; 


// 1. 设置 属性 

atts = new ArrayList<Rttribute> () 7 

// - 数值 型 

atts .add (new Attribute ("att1")); 

// - 标 称 型 

// 需 创 建 标签 

attVals = new ArrayList<string>(); 

for (i = 0; i < 5; i++) 
attVals.add("val" + (i + 1)); 

atts .add (new Attribute ("att2", attVals)); 


// - 字符 串 型 

atts .add (new Attribute ("att3", (ArrayList<string>) null)); 
// - 日 期 型 

atts .add (new Rttribute ("att4", "yyyy-MM-dd")); 

// - 关系 型 

attsRel = new ArrayList<RAttribute> () 

// -- 数值 型 

attsRel .add (new Attribute ("att5.1")); 

// 一 标 称 型 


attValsRel = new ArrayList<String>(); 
for (i = 0; i < 5; i++) 

attValsRel.add("val5." + (i + 1)); 
attsRel .add (new Attribute("att5.2", attValsRel)); 
dataRel = new Instances ("att5", attsRel, 0); 
atts.add (new Attribute("att5", dataRel, 0)); 


// 2. 创建 Instances 对 象 


data = new Instances ("MyRelation", atts, 0); 


// 3. 添加 数据 
// 第 一 个 实例 


vals = new double[data.numAttributes ()]; 

// - 数值 型 

vals[0] = Math.PI; 

// - 标 称 型 

vals[1] = attVals.indexof ("val3"); 

// - 字符 串 型 

vals[2] = data.attribute(2) .addstringValue ("A string."); 
// - 日 期 型 

vals[3] = data.attribute (3) .parseDate ("2013-04-05"); 
// - 关系 型 

dataRel = new Instances (data.attribute (4) .relation () 0); 
// 一 第 一 个 实例 

ValsRel = new double[2]; 

ValsRel[0] = Math.PI + 17 

valsRel[1] = attValsRel.indexof ("val5.3"); 

dataRel .add (new DenseInstance (1.0，VvalsRel) ) 

// 一 第 二 个 实例 

ValsRel = new double[2]; 

valsRel [0] Math.PI + 2; 

valsRel[1] attValsRel .indexOf ("val5.2"); 

dataRel .add (new DenseInstance(1.0, valsRel)); 
vals[4] = data.attribute (4) .addRelation (dataRel); 

// 添加 


data.add (new DenseInstance(1.0, vals)); 


// 第 二 个 实例 

vals = new double[data.numAttributes () ]; // 重要 : 必须 用 new 新 建 double 数组 
// - 数值 型 

vals[0] = Math.E; 


// - 标 称 型 
vals[1] = attVals.indexOf ("vall"); 
// - 字符 串 型 


vals[2] = data.attribute (2) .addStringValue ("Yet another string."); 
// - 日 期 型 

vals[3] = data.attribute (3) .parseDate ("2013-04-10"); 

// - 关系 型 

dataRel = new Instances (data.attribute(4) .relation(), 0); 
// 一 第 一 个 实例 

ValsRel = new double[2]; 

ValsRel[0] = Math.E+ 1; 

valsRel[1] = attValsRel.indexOf ("val5.4"); 

dataRel .add (new DenseInstance(1.0, valsRel)); 

// 一 第 二 个 实例 

ValsRel = new double[2]; 

ValsRel[0] = Math.E + 2; 

valsRel[1] = attValsRel .indexOf ("val5.1"); 

dataRel .add (new DenseInstance(1.0, valsRel)); 

vals[4] = data.attribute (4) .addRelation (dataRel); 

// 添加 


data.add (new DenseInstance(1.0, vals)); 
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// 4. 输出 数据 
System.out.println (data); 


运行 程序 后 的 输出 如 下 : 


@relation MyRelation 


@attribute attl numeric 

@attribute att2 {vall,val2,val3,val4,val5} 

Q@attribute att3 string 

Q@attribute att4 date yyyy-MM-dd 

Q@attribute att5 relational 

Q@attribute att5.1 numeric 

@attribute att5.2 {val5.1,val5.2,val5.3,val5.4,val5.5} 
@end att5 


@data 

3.141593,val3, 'A string.',2013-04-05,'4.141593, val5.3\n5.141593, val5.2" 
2.718282,vall, 'Yet another string.',2013-04- 
10,'3.718282,val5.4\n4.718282,val5.1"' 


可 见 结果 符合 设计 要 求 。 输 出 的 数据 中 ， 除 字符 串 型 数据 使 用 单 引号 标示 外 ， 关 系 型 


数据 也 使 用 单 引号 。 另 外 ， 关 系 型 数据 使 用 “\n” 来 分 隔 多 条 记录 。 


2. 打 乱 数据 顺序 
本 示例 展示 两 种 随机 化 方式 的 不 同 ， 如 果 使 用 Random 类 的 默认 构造 函数 ， 则 每 次 产 


生 的 伪 随 机 数 序列 都 不 同 ， 从 而 造成 每 次 的 实验 结果 都 可 能 不 相同 而 不 稳定 ， 实 验 不 可 重 
复 。 要 生成 可 重复 的 伪 随 机 数 序列 ， 必 须 使 用 提供 随机 数 种 子 的 构造 函数 。 


程序 清单 7.22 Shufflingjava 
Package wekalearning.dataset .memory; 


import java.util.Random; 


import weka.core.Instances; 
import weka.core.converters.ConverterUtils.DataSource; 


Public class Shuffling { 


Public static void main (String[] args) throws Exception { 
Instances data = DataSource 
.read("C:/Weka-3-7/data/weather.nominal .arff"); 
System. out.println("\n 原 数据 集 内 容 : ") ; 
System.out.println (data); 


// 以 下 使 用 Random 默认 构造 函数 。 如 果 要 得 到 可 重复 的 伪 随机 序列 ， 这 种 方式 不 可 取 
Instances datal = new Instances (data); 
datal .randomize (new Random() ) 7 


System. out-println ("\n 使 用 默认 构造 函数 后 第 一 次 的 数据 集 内 容 : ") ; 
System.out.println (datal); 


Instances data2 = new Instances (data); 

data?2.randomize (new Random()); 

System. out.println ("\n 使 用 默认 构造 函数 后 第 二 次 的 数据 集 内 容 : ") ; 
System. out.println(data2) 7 


// 以 下 使 用 Random 提供 随机 数 种 子 的 构造 函数 。 推 荐 采用 这 种 方式 

long seed = 12341; 

Instances data3 = new Instances (data); 

data3.randomize (new Random(seed)); 

System. out.println("\n 使 用 提供 随机 数 种 子 的 构造 函数 后 第 一 次 的 数据 集 内容 : ") ; 
System. out.println (data3); 


Instances data4 = new Instances (data); 

data4.randomize (new Random(seed)); 

System. out.println("\n 使 用 提供 随机 数 种 子 的 构造 函数 后 第 二 次 的 数据 集 内 容 :") ; 
System.out.println (data4); 


} 


运行 程序 ， 仔 细 观 察 运行 的 输出 结果 并 回答 如 下 问题 ， 使 用 默认 构造 函数 后 是 否 打 乱 
了 数据 顺序 ? 两 次 的 输出 结果 是 否 相 同 ? 使 用 提供 随机 数 种 子 的 构造 函数 呢 ? 


7.5 过 滤 


在 Weka 中 ， 过 滤器 用 于 进行 数据 预 处 理 ， 在 weka.filters 包 下 可 以 找到 这 些 过 滤器 。 
过 滤器 分 为 有 监督 过 滤器 和 无 监督 过 滤器 两 类 ， 前 者 需要 设置 一 个 类 别 属 性 ， 后 者 不 需要 
类 别 属性 。 过 滤器 还 可 分 为 基于 属性 (attribute-based) 和 基于 实例 (instance-based) 两 个 子 类 : 
前 者 针对 列 的 处 理 ， 例 如 ， 添 加 或 删除 列 ， 后 者 针对 行 的 处 理 ， 例 如 ， 添 加 或 删除 行 。 

这 些 类 别 的 含义 不 言 而 喻 。Weka 中 有 两 种 Discretize 过 滤器 ， 它 们 的 区 别 是 : 有 监督 
的 离散 化 过 滤器 需要 考虑 类 别 属 性 及 其 在 数据 集中 的 分 布 ， 以 确定 最 佳 的 箱 数 及 箱 的 规 
模 ， 而 无 监督 的 离散 化 过 滤器 仅 依赖 于 用 户 指定 的 箱 数 。 

除 上 述 类 别 外 ， 过 滤器 还 可 分 为 流 式 过 滤器 或 基于 批量 处 理 的 过 滤器 。 流 式 过 滤器 可 
以 立即 处 理 数据 ， 能 马上 提供 处 理 好 的 数据 : 批量 处 理 的 过 滤器 则 不 同 ， 需 要 批量 数据 以 
设置 其 内 部 数据 结构 。weka.filters.unsupervised.attribute 包 中 的 Add 过 滤器 是 一 种 流 式 过 滤 
器 ， 它 不 需要 复杂 的 设置 ， 就 能 添加 一 个 只 含 缺 失 值 的 新 属性 。 然 而 ， 
ReplaceMissingValues 过 滤器 却 需 要 批量 数据 以 确定 每 个 属性 的 均值 和 众 数 。 否 则 ， 过 滤 
器 将 无 法 用 有 意义 的 值 来 代替 缺失 值 。 但 要 知道 ， 只 要 用 第 一 批 数据 来 初始 化 批量 过 滤器 
之 后 ， 批 量 过 滤器 也 可 以 像 流 式 过 滤器 一 样 一 行 接 一 行 地 处 理 数据 。 

就 处 理 数据 的 方式 而 言 ， 基 于 实例 的 过 滤器 有 点 特殊 。 正 如 前 面 提 到 的 ， 当 首 批 数据 
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通过 之 后 ， 所 有 过 滤器 都 能 一 行 接 一 行 地 处 理 数据 。 当 然 ， 如 果 需 要 过 滤器 从 批量 数据 中 
添加 或 删除 数 行 ， 就 不 可 能 再 工作 在 单行 处 理 模 式 下 。 设 想 这 样 一 个 使 用 FilteredClassifier 
元 分 类 器 的 场景 当 第 一 批 数据 通过 之 后 ， 训 练 阶段 完成 ， 分 类 器 得 到 的 评估 是 针对 测试 
集 的 ， 每 次 仅 一 个 实例 。 假 如 现在 过 滤器 删除 唯一 的 一 个 实例 ， 或 者 添加 多 个 实例 ， 就 
不 可 能 正确 地 进行 评估 ， 因 为 评估 只 期 望 得 到 唯一 的 一 个 结果 。 这 就 是 为 何 基于 实例 的 
过 滤器 只 能 让 后 续 的 批量 数据 通过 而 不 能 做 任何 处 理 的 原因 。 例 如 ，Resample 过 滤器 就 是 
这 样 。 

如 下 示例 使 用 位 于 weka.filters.unsupervised.attribute 包 中 的 Remove 过 滤器 ， 来 删除 数 
据 集 的 第 一 个 属性 。 调 用 setOptions(String[]) 方 法 来 设置 选项 。 


程序 清单 7.23 调用 setOptions(String[]) 方 法 


String[] options = new String[2]; 


options[0] = "-R"; // 范围 
options[1] = "1"7 // 第 一 个 属性 
Remove remove = new Remove () ; // 构建 过 滤器 实例 
remove. setOptions (options) // 设置 选项 
remove . setInputFormat (data); // 设置 输入 格式 


Instances newData = Filter.useFilter (data, remove); // 应 用 过 滤器 


这 里 有 一 个 经 常 犯错 的 陷阱 ， 那 就 是 在 调用 setInputFormat(Instances) 方 法 之 后 再 设置 
选项 。 这 样 就 无 法 得 到 正确 结果 ， 因 为 该 方法 通常 情况 下 用 于 确定 数据 的 输出 格式 ， 所 有 
选项 在 调用 前 必须 先 设置 好 ， 和 否则 ， 将 忽略 以 后 设置 的 所 有 选项 。 


7.5.1 批量 过 滤 


如 果 两 个 或 更 多 的 数据 集 需 要 用 同样 的 初始 化 后 的 过 滤器 进行 处 理 ， 就 应 该 使 用 批量 
过 滤器 。 如 果 没 有 使 用 批量 过 滤器 ， 例 如 ， 使 用 weka.filters.unsupervised.attribute 包 下 的 
StringToWordVector 过 滤器 生成 训练 集 和 测试 集 ， 那 么 该 过 滤器 的 两 次 运行 是 完全 独立 
的 ， 而 且 很 有 可 能 会 创建 两 个 不 兼容 的 数据 集 。 这 是 因为 ， 在 两 个 不 同 的 数据 集 上 运行 
StringToWordVector 过 滤器 ， 将 导致 产生 两 个 不 同 的 词典 ， 因 而 产生 不 同 的 属性 。 

如 下 示例 显示 了 如 何 使 用 weka.filters unsupervised ,attribute 包 中 的 Standardize 过 滤器 
进行 标准 化 ， 即 把 所 有 数值 型 属性 转换 为 具有 和 零 均值 和 单位 方差 的 训练 集 和 测试 集 。 


程序 清单 7.24 ”使 用 Standardize 过 滤器 


Instances train = ... // 训练 集 

Instances test = ... // 测试 集 

Standardize filter = new Standardize(); 

// 使 用 训练 集 初始 化 一 次 过 滤器 

filter.setInputFormat (train); 

// 基于 训练 实例 配置 过 滤器 并 返回 

// 过 滤 实例 

Instances newTrain = Filter.useFilter(train, filter); 
// 创建 新 测试 集 


Instances newTest = Filter.useFilter (test, filter); 


7.5.2 ”即时 过 滤 


API 提供 用 户 对 数据 的 完全 控制 权 ， 使 得 同时 处 理 多 个 数据 集 更 为 容易 ， 此 外 ，Weka 
还 提供 一 种 称 为 即时 数据 过 滤 (filtering on-the-fly) 的 方法 ， 这 种 过 滤 方 法 使 用 起 来 更 加 简 
单 。Weka 通过 诸如 weka.classifiers.meta 包 的 FilteredClassifier 分 类 器 、weka.clusterers 包 
的 FilteredClusterer 聚 类 器 、weka.associations 包 的 FilteredAssociator 关联 器 ， 以 及 
weka.attributeSelection 包 的 FilteredAttributeEval 或 FilteredSubsetEval 属性 选择 器 等 元 方案 
提供 这 个 方便 的 功能 。 不 像 前 面 所 讲述 的 需要 事先 过 滤 数 据 那样 ， 用 户 只 需 设 置 元 方案 ， 
并 让 元 方案 一 次 完成 过 滤 工 作 即 可 。 

如 下 示例 使 用 FilteredClassifier 分 类 器 和 Remove 过 滤器 删除 数据 集 的 第 一 个 属性 ， 并 
使 用 weka.classifiers.trees 包 的 J48 作为 基 分 类 器 。 首 先 ， 用 训练 集 构建 一 个 分 类 器 ， 然 
后 ， 个 独立 的 测试 集 进行 评估 。 在 控制 台 上 打印 实际 和 预测 的 类 别 值 。 


程序 清单 7.25 ”即时 过 滤 代码 片段 


Instances train = ... // 训练 集 
Instances test = ... // 测试 集 
// 过 滤器 
Remove rm = new Remove () 7 
rm.setAttributeIndices ("1"); // 删除 第 1 个 属性 
// 分 类 器 
J48 j48 = new J48(); 
j48.setUnpruned (true); //” 使 用 不 修剪 的 J48 
// 元 分 类 器 
FilteredClassifier fc = new FilteredClassifier(); 
fc.setFilter (rm); 
fc.setclassifier (j48); 
// 训练 并 输出 模型 
fc.buildclassifier (train); 
System.out.println (fc); 
for (int i = 0; i < test.numInstances(); i++) { 
double pred = fc.classifyInstance (test.instance (i)); 
System.out .print ("编号 : " + (i + 1)); 
System.out .print ("， 实 际 类 别 : " 
+ test.classAttribute() .value( 
(int) test.instance(i) .classValue())); 
System.out .println ("， 预 测 类 别 : " 
+ test.classAttribute() .value( (int) pred)); 


} 


7.5.3 手把手 教 你 用 
1. 简单 过 滤器 
本 示例 展示 如 何 添加 一 个 数值 型 属性 和 一 个 标 称 型 属性 到 数据 集中 ， 并 用 随机 值 填 充 
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后 输出 。 完 整 代码 如 程序 清单 7.26 所 示 ， 首 先 加 载 数据 集 ， 然 后 分 别 添加 一 个 数值 型 属性 
属性 ， 最 后 用 随机 值 填充 新 增 的 两 个 属性 并 输出 数据 。 这 里 所 使 用 的 过 滤器 
的 全 称 为 weka.filters.unsupervised.attribute.Add， 这 是 一 个 无 监督 的 添加 属性 的 过 滤器 ， 使 
用 setAttributeIndex 方法 设置 新 增 属性 的 索引 ， 使 用 setAttributeName 方法 设置 新 增 属性 的 
名 称 ， 使 用 setNominalLabels 方法 设置 标 称 型 属性 的 标签 ， 使 用 setInputFormat 方法 设置 输 


和 一 个 标 称 型 


入 实例 的 格式 。 
程序 清单 7.26 AddFiltering java 


Package wekalearning.filters; 


import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.Add; 


import java.util.Random; 


/太太 


* 添加 一 个 数值 型 属性 和 一 个 标 称 型 属性 到 数据 集中 ， 并 用 随机 值 填充 后 输出 


public class AddFiltering { 


public static void main (String[] args) throws Exception { 


// 加 载 数据 集 


Instances data = DataSource 


.read("C:/Weka-3-7/data/weather.numeric.arff"); 


Instances result = null; 


Add filter; 
result = new Instances (data); 


// 新 增 数值 型 属性 

filter = new Add(); 

filter.setAttributeIndex ("last"); 
filter.setAttributeName ("NumericAttribute"); 
filter.setInputFormat (result); 

result = Filter.useFilter(result, filter); 
// 新 增 标 称 型 属性 

filter = new Add(); 

filter.setAttributeIndex ("last"); 
filter.setNominalLabels ("A,B,C"); // 设置 标签 
filter.setAttributeName ("NominalAttribute"); 
filter.setInputFormat (result); 

result = Filter.useFilter(result, filter); 


// 用 随机 值 填充 新 增 的 两 个 属性 
Random rand = new Random(1234); 
for (int i = 0; i < result.numInstances(); i++) 


// 填充 数值 型 属性 


{ 


result .instance (i) .setValue (result.numRAttributes () - 2, 
rand.nextDouble () ); 

// 填充 标 称 型 属性 

result.instance (i) .setValue (result .numAttributes() - 1， 
rand.nextInt (3) ) ; // 标签 索引 : A:0、B:1、C:2 


// 输出 数据 
System. out.println ("过 滤 后 的 数据 集 : ") ; 
System.out.println(result); 


} 

运行 后 ， 输 出 过 滤 后 的 数据 集 ， 其 中 新 增 了 两 个 属性 ， 属 性 值 为 随机 生成 的 值 。 

2. 批量 过 滤 

本 示例 展示 如 何 批量 过 滤 分 开 的 训练 集 和 测试 集 ， 其 中 ， 训 练 集 用 于 初始 化 过 滤器 ， 
测试 集 用 于 过 滤 数 据 。 完 整 代码 如 程序 清单 7.27 所 示 ， 首 先 加 载 数据 集 ， 然 后 使 用 训练 集 
对 过 滤器 进行 一 次 初始 化 ， 用 训练 集 来 配置 过 滤器 ， 并 返回 过 滤 后 的 训练 集 实例 ， 接 着 过 
滤 测 试 集 并 返回 过 滤 后 的 新 测试 集 ， 最 后 输出 过 滤 后 的 新 训练 集 和 测试 集 。 这 里 使 用 的 过 
滤器 的 全 称 为 weka.filters.unsupervised.attribute.Standardize， 其 功能 为 标准 化 给 定数 据 集中 
所 有 的 数值 型 属性 ， 使 其 具有 和 零 均值 和 单位 方差 ， 如 果 设 置 了 类 别 属性 ， 则 忽略 之 。 

程序 清单 7.27 BatchFiltering.java 

Package wekalearning.filters; 


import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.standardize; 


交 太太 
* 批量 过 滤 。 训 练 集 用 于 初始 化 过 滤器 ， 并 使 用 过 滤器 来 过 滤 测试 集 


public class BatchFiltering { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 
Instances test = DataSource.read("C:/Weka-3-7/data/segment-test .arff"); 


// 过 滤 数 据 

// 使 用 标准 化 过 滤器 

Standardize filter = new Standardize(); 
// 使 用 训练 集 一 次 初始 化 过 滤器 
filter.setInputFormat (train); 

// 基于 训练 集 配 置 过 滤器 ， 并 返回 过 滤 后 的 实例 


Instances newTrain = Filter.useFilter(train, filter); 
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| // 过 滤 并 创建 新 测试 集 


Instances newTest = Filter.useFilter(test, filter); 


// 输出 数据 集 

System. out.println ("新 训练 集 : "); 
System. out.println (newTrain); 
System. out.println (" 新 测试 集 : ") ; 
System. out.println (newTest); 


3. 即时 过 滤 

本 示例 展示 如 何 使 用 FilteredClassifier 元 过 滤器 进行 即时 过 滤 。 完 整 代码 如 程序 清 
单 7.28 所 示 ， 首 先 加 载 数据 集 ， 由 于 这 里 将 训练 集 和 测试 集 分 开 ， 因 此 需要 检查 这 两 个 数 
据 集 是 否 兼容 ， 然 后 使 用 Remove 过 滤器 删除 数据 集 的 第 一 个 属性 ， 并 使 用 不 修剪 的 J48 
分 类 器 作为 元 分 类 器 FilteredClassifier 的 基 分 类 器 。 先 用 训练 集训 练 分 类 器 ， 然 后 对 独立 
的 测试 集 进行 评估 ， 并 在 控制 台 上 打印 实际 的 和 预测 的 类 别 值 。 


程序 清单 7.28 FilteringOnTheFlyjava 
Package wekalearning.filters; 


import weka.classifiers.meta.FilteredClassifier7 
import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.unsupervised.attribute.Remove; 


/** 
* 即时 过 滤 实 例 程 序 。 演 示 如 何 使 用 Filteredclassifier 元 过 滤器 
* 程序 使 用 Remove 过 滤器 和 J48 分 类 器 
*} 

public class FilteringonTheFly { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 
Instances test = DataSource.read("C:/Weka-3-7/data/segment-test .arff"); 
// 设置 类 别 属性 
train.setClassIndex (train.numAttributes() - 1); 
test .setCclassIndex (test .numAttributes() - 1); 
// 检查 训练 集 和 测试 集 是 否 兼容 
if (!train.equalHeaders (test) ) 
throw new Exception (" 训 练 集 和 测试 集 不 兼容 : \n" 
+ train.equalHeadersMsg (test) ) 7 


// 过 滤器 
Remove Im = new Remove () > 
rm.setAttributeIndices ("1"); // 删除 第 1 个 属性 


// 分 类 器 
J48 j48 = new J48(); 
j48.setUnpruned (true) ; // 使 用 不 修剪 的 J48 


// 元 分 类 器 

FilteredClassifier fc = new FilteredClassifier(); 
fc.setFilter (rm); 

fc.setClassifier(j48) 7 


// 训练 并 预测 
fc.buildclassifier (train); 
for (int i = 0; i < test.numIinstances(); i++) { 
double pred = fc.classifyInstance (test.instance (i)); 
System.out.print ("编号 : " + (i + 1)); 
System. out.print ("， 实 际 类 别 : " 
+ test.classAttribute() .value( 
(int) test.instance(i) .classValue())); 
System. out.println ("， 预 测 类 别 : " 
+ test.classAttribute() .value ( (int) pred)); 


} 

} 

由 于 本 例 需 要 预测 测试 集 的 类 别 ， 因 此 一 定 要 设置 类 别 属性 ， 否 则 会 产生 运行 时 错 
误 。 另 外 ， 本 例 使 用 classifyInstance 方法 对 给 定 的 测试 实例 进行 分 类 。 该 方法 的 唯一 参数 
是 要 进行 分 类 的 测试 实例 对 象 ， 方 法 的 返回 值 是 给 定 实例 最 有 可 能 的 预测 类 别 ， 如 果 没 能 
做 出 预测 ， 则 返回 Utils.missingValue()。 


7.6 分、 类 


在 Weka 中 ， 分 类 和 回归 算法 的 实现 都 称 为 “分 类 器 ”， 其 Java 类 位 于 
weka.classifiers 包 下 。 本 节 包 括 以 下 三 个 主题 。 

第 一 ， 分 类 器 构建 : 批量 和 增 量 学 习 。 

第 二 ， 分 类 器 评估 : 各 种 评估 技术 ， 以 及 如 何 获取 生成 的 统计 信息 。 

第 三 ， 实 例 分 类 : 预测 未 知 数据 类 别 。 


7.6.1 分 类 器 构建 


所 有 的 Weka 分 类 器 都 设计 为 可 批量 训练 的 ， 即 分 类 器 对 整个 数据 集 一 次 就 能 训练 
好 ， 这 类 分 类 器 要 求 能 够 将 训练 数据 一 次 全 部 装 入 内 存 。 但 是 ， 也 有 一 些 算法 可 以 随时 随 
地 更 新 自己 的 内 部 模型 。 这 类 分 类 器 称 为 增 量 分 类 器 。 下 面 分 别 讲述 批量 分 类 器 和 增 量 分 
类 器 。 

批量 分 类 器 的 构建 非常 简单 ， 分 为 两 个 阶段 。 第 一 阶段 ， 设 置 选项 。 可 以 使 用 setOptions 
(CString[]) 方 法 或 属性 的 set 方法 。 第 二 阶段 ， 进 行 训 练 。 将 训练 集 作 为 参数 ， 调 用 


Idv epNA 册 洲 全 由本 


@ 


@ 


数据 挖掘 与 机 器 学 习 


一 一 WEKA 局 用 


buildClassifier(Instances) 方 法 。 根 据 定义 ， 该 方法 完全 复位 其 内 部 模型 ， 以 确保 该 方法 的 
后 续 调 用 能 在 相同 数据 的 条 件 下 产生 相同 的 模型 ， 即 能 进行 “可 重复 实验 ”。 程 序 清 
单 7.29 用 于 在 数据 集中 构建 不 修剪 的 J48 决策 树 。 


程序 清单 7.29 ”构建 不 修剪 的 J48 决策 树 代码 片段 


Instances data = ... // 训练 集 
String[] options = new String[1]; 

options[0] = "-U"; // 不 修剪 树 

J48 tree = new J48(); // J48 分 类 器 对 象 
tree .setOptions (options) // 设置 选项 


tree.buildclassifier (data);  // 构建 分 类 器 


所 有 的 Weka 增 量 分 类 器 都 要 实现 位 于 weka.classifiers 包 中 的 UpdateableClassifier 接 
口 。Java 文档 讲述 了 哪些 分 类 器 实现 了 该 接口 ， 这 些 分 类 器 处 理 规模 较 大 的 数据 时 可 以 只 
占用 较 小 的 存储 器 空间 ， 因 为 不 需要 一 次 将 训练 数据 加 载 进 内 存 。 例 如 ， 可 以 增 量 读 取 
ARFF 文件 。 

增 量 分 类 器 的 训练 也 分 为 两 个 阶段 。 第 一 阶段 ， 通 过 调用 buildClassifier(Instances) 方 
法 进行 模型 初始 化 。 用 户 可 以 使 用 weka.core.Instances 对 象 ， 不 带 实际 数据 或 者 带 一 个 初 
始 数据 集 。 第 二 阶段 ， 通 过 调用 updateClassifier(Instance) 方 法 ， 一 行 一 行 地 更 新 模型 。 

程序 清单 7.30 演示 了 如 何 使 用 ArffLoader 类 来 增 量 加 载 一 个 ARFF 文件 ， 并 一 次 一 行 
地 训练 NaiveBayesUpdateable 分 类 器 。 


程序 清单 7.30 增 量 分 类 器 的 训练 代码 片段 


// 加 载 数据 

ArffLoader loader = new ArffLoader(); 

loader.setFile (new File("/dir/data.arff")); 

Instances structure = loader.getstructure(); 
structure.setClassIndex (structure.numAttributes() - 1); 


// 训练 NaiveBayes 

NaiveBayesUpdateable nb = new NaiveBayesUpdateable(); 

nb.buildclassifier (structure); // 不 带 实际 数据 

Instance instance; 

while ((instance = loader.getNextInstance (structure)) != null) 
nb.updateclassifier (instance); 


7.6.2 分 类 器 评估 


构建 分 类 器 只 是 分 类 过 程 的 一 个 部 分 ， 另 一 个 重要 部 分 是 如 何 评 估 其 分 类 性 能 。Weka 
支持 两 种 类 型 的 评估 。 第 一 类 ， 交 叉 验 证 。 如 果 只 有 一 个 数据 集 ， 并 且 希 望 进行 一 个 贴近 
实际 的 评估 ， 可 以 设置 与 数据 集 行 数 相等 的 折 数 ， 这 就 是 留 一 法 交叉 验证 (LOOCV)。 第 二 
类 ， 专 用 测试 集 。 该 测试 集 不 用 于 训练 ， 完 全 用 于 对 所 构建 的 分 类 器 进行 评估 。 有 一 个 采 
用 与 训练 集 相同 (或 类 似 ) 概 念 的 测试 集 非 常 重要 ， 否 则 会 导致 其 性 能 表现 不 佳 。 

最 后 的 评价 步骤 包含 收集 统计 信息 ， 由 位 于 weka.classifiers 包 中 的 Evaluation 类 实施 。 

Evaluation 类 的 crossValidateModel 方法 用 于 对 未 经 训练 的 分 类 器 以 及 单一 数据 集 进 行 


交叉 验证 。 它 提供 未 经 训练 的 分 类 器 ， 以 确保 没有 信息 泄露 给 实际 的 评估 器 。 虽 然 使 用 
buildClassifier 方法 重 置 分 类 器 是 实现 的 要 求 ， 但 不 能 保证 完全 做 到 这 一 点 。 使 用 未 经 训练 
的 分 类 器 能 够 避免 不 必要 的 副作用 ， 对 于 每 一 对 训练 集 和 测试 集 ， 最 好 使 用 初始 提供 的 分 
类 器 的 备份 。 

执行 交叉 验证 之 前 ， 先 使 用 提供 的 随机 数 发 生 器 (java.utiLRandom) 将 数据 随机 化 。 建 
议 该 数字 发 生 器 使 用 指定 的 种 子 值 作为 随机 种 子 。 和 否则， 由 于 数据 的 不 同 随机 化 ， 对 同一 
数据 集 的 交叉 验证 的 后 续 运 行 就 不 会 产生 相同 的 结果 。 

程序 清单 7.31 对 数据 集 newData 使 用 J48 决策 树 算 法 进行 十 折 交 叉 验 证 ， 随 机 数 产 生 
器 的 种 子 为 “1234”， 收 集 到 的 统计 信息 总 结 输出 到 标准 输出 stdout。 


程序 清单 7.31 交叉 验证 代码 片段 

Instances newData = ... // 数据 集 

Evaluation eval = new Evaluation (newData); 

J48 tree = new J48(); 

eval .crossValidateModel (tree, newData, 10, new Random(1234)); 

System.out .println (eval.tosummarystring ("\n 结 果 \n\n", false)); 

本 例 中 的 Evaluation 对 象 使 用 评估 过 程 中 的 数据 集 进行 初始 化 。 这 样 做 是 为 了 将 正在 
评估 的 数据 类 型 告知 评估 器 ， 确 保 所 有 的 内 部 数据 结构 得 以 正确 设置 。toSummaryString 方 
法 以 摘要 的 形式 输出 性 能 统计 数据 ， 第 一 个 参数 为 摘要 标题 ， 第 二 个 参数 为 是 否 打印 复杂 
的 性 能 统计 数据 。 

使 用 专用 的 测试 集 来 评估 分 类 器 与 交叉 验证 一 样 简单 ， 但 肯定 需要 提供 一 个 训练 过 的 
分 类 器 ， 而 不 是 提供 一 个 未 经 训练 的 分 类 器 。 这 里 再 次 使 用 weka.classifiers.Evaluation 类 
来 执行 评估 ， 这 次 使 用 evaluateModel 方法 。 

程序 清单 7.32 使 用 J48 的 默认 选项 对 训练 集 进行 训练 ， 并 用 测试 集 对 它 进行 评估 ， 然 
后 输出 收集 到 的 统计 信息 总 结 。 


程序 清单 7.32 ”专用 测试 集 评 估 代 码 片段 


Instances train = ... // 训练 集 
Instances test = ... // 测试 集 
// 训练 分 类 器 


Classifier classifier = new J48(); 

cls.buildclassifier (train); 

// 评估 分 类 器 并 打印 一 些 统计 信息 

Evaluation eval = new Evaluation (train) 7 

eval .evaluateModel (classifier, test); 

System.out .printin (eval.tosummarystring ("\n 结 果 \n\n", false)); 


前 面 的 代码 示例 中 ， 己 经 使 用 了 Evaluation 类 的 toSummaryString 方法 。 除 这 个 方法 
标 称 型 类 别 属性 还 有 其 他 的 总 结 方法 ， 列 示 如 下 。 

(1) toMatrixString: 输出 混淆 矩阵 。 

(2) toClassDetailsString: 输出 TP/FP 率 、 查 准 率 、 查 全 率 、F- 度 量 、AUC( 每 个 类 别 )。 
(3) toCumulativeMarginDistributionString: 输出 累计 边缘 分 布 。 

如 果 不 希望 使 用 这 些 总 结 方法 ， 也 可 以 直接 访问 单个 的 统计 度量 。 下 面 列 出 一 些 常见 


外 
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的 度量 。 
(1) 标 称 类 别 属性 
e@ ”correct( 方 法 : 正确 分 类 的 实例 数量 。 不 正确 分 类 的 实例 数量 可 调用 incorrect() 方 
法 得 到 。 
e@ ”pctCorrect(0 方 法 : 正确 分 类 的 实例 的 百分比 ( 查 准 率 )。pctIncorrect() 方 法 返回 错误 
分 类 的 实例 的 百分比 。 
e areaUnderROC(int) 方 法 : 指定 的 类 别 标签 索引 (基于 0 的 索引 ) 的 AUC。 
(2) 数值 类 别 属性 
correlationCoefficient() 方 法 : 相关 系数 。 
meanAbsoluteError() 方 法 : 平均 绝对 误差 。 
rootMeanSquaredError() 方 法 : 均 方 根 误差 。 
numInstances() 方 法 : 类 别 值 的 实例 数量 。 
unclassified() 方 法 : 未 分 类 的 实例 数量 。 
pctUnclassified() 方 法 : 未 分 类 的 实例 的 百分比 。 
如 果 想 了 解 方法 的 更 完整 的 说 明 ， 请 参阅 Evaluation 类 的 Java 文档 。 通 过 查阅 上 述 总 
结 方法 的 源 代码 ， 用 户 可 以 容易 地 确定 在 何 种 输出 下 使 用 哪些 方法 。 


7.6.3 ”实例 分 类 


在 分 类 器 设置 已 经 评估 ， 并 证 明 其 能 够 满足 要 求 之 后 ， 就 可 以 用 所 构建 的 分 类 器 进行 
预测 ， 并 且 给 没有 类 别 标签 的 数据 打上 标签 。 前 面 已 经 简单 介绍 了 如 何 使 用 分 类 器 的 
classifyInstance 方法 ， 本 节 将 进行 更 详细 的 阐述 。 

程序 清单 7.33 使 用 一 个 已 经 训练 过 的 分 类 树 ， 从 磁盘 加 载 数 据 集 ， 将 所 有 没有 类 别 标 
签 的 实例 打上 标签 。 在 所 有 实例 都 打上 标签 之 后 ， 将 新 数据 集 写 入 到 磁盘 的 新 文件 中 。 


程序 清单 7.33 打上 类 别 标签 的 代码 片段 


// 加 载 没有 标签 的 数据 ， 并 设置 分 类 属性 

Instances unlabeled = DataSource.read("/dir/unlabeled.arff"); 

unlabeled.setClassIndex (unlabeled.numAttributes() - 1); 

// 创建 备份 

Instances labeled = new Instances (unlabeled); 

// 为 实例 打上 标签 

for (int i = 0; i < unlabeled.numInstances(); i++) { 
double clsLabel = tree.classifyInstance (unlabeled.instance (i)); 
labeled.instance (i) .setClassValue (clsLabel); 


} 

// 保存 打上 新 标签 的 数据 

Datasink.write("/dir/labeled.arff", labeled); 

在 上 面 的 示例 中 ， 分 类 和 回归 问题 的 工作 方式 是 一 致 的 ， 当 然 ， 要 求 分 类 器 能 够 处 理 
数值 型 类 别 。 这 是 为 什么 呢 ? classifyInstance(Instance) 方 法 对 于 数值 型 类 别 返回 回归 数值 ， 
对 于 标 称 型 类 别 则 返回 可 用 的 类 别 标签 列表 中 基于 0 的 索引 。 


@ 


如 果 对 类 别 的 分 布 感 兴趣 ， 用 户 可 以 使 用 distributionForInstance(Instance) 方 法 ， 该 方 
法 返回 一 个 总 和 为 1 的 数组 。 当 然 ， 使 用 该 方法 只 对 分 类 问题 才 有 意义 。 程 序 清单 7.34 在 
控制 台 输 出 类 别 的 分 布 ， 以 及 实际 标签 和 预测 标签 。 


程序 清单 7.34 输出 类 别 分 布 的 代码 片段 
// 加 载 数 据 


Instances train = DataSource.read ("train.arff"); 

Instances test = DataSource.read("test .arff"); 

train.setClassIndex (train.numAttributes() - 1); 

test.setClassIndex (test .numAttributes() - 1); 

// 训练 分 类 器 

J48 cls = new J48(); 

cls.buildclassifier (train); 

// 输出 预测 

System.out .println ("编号 \t-\t 实际 \t-\t 预测 \t-\t 错误 \t-\t 分 布 ") ; 

for (int i = 0; i < test.numInstances(); i++) { 
double pred = cls.classifyInstance (test.instance (i)); 
double[] dist = cls.distributionForInstance (test.instance (i)); 
System.out.print ((i+1) + ™ — "); 
System.out .Print (test.instance (i) .tostring (test.classIndex()) + "一 "); 
System.out .Print (test.classAttribute() .value((int) pred) + " — "); 
System.out .println (Utils.arrayTostring (dist)); 
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7.6.4 手把手 教 你 用 


1. 批量 分 类 器 构建 


本 示例 采用 批量 方式 构建 一 个 J48 分 类 器 ， 并 输出 训练 好 的 决策 树 模型 。 完 整 代码 如 
程序 清单 7.35 所 示 ， 这 里 的 批量 分 类 器 的 构建 按 两 个 阶段 进行 ， 首 先 设置 选项 ， 然 后 进行 
训练 。 训 练 完成 后 ， 输 出 生成 的 模型 。 

程序 清单 7.35 BatchClassifierjava 


Package wekalearning.classifiers; 
import weka.classifiers.trees.J48; 
import weka.core.Instances; 


import weka.core.converters.ArffLoader; 


import java.io.File; 


/** 
* 批量 方式 构建 J48 分 类 器 ， 并 输出 决策 树 模 型 
be 


Public class BatchClassifier { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
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} 


ArffLoader loader = new ArffLoader () 7 

loader.setFile (new File("C:/Weka-3-7/data/weather.nominal .arff")); 
Instances data = loader.getDataset (); 

data.setClassIndex (data.numAttributes() - 1); 


// 训练 J48 分 类 器 

String[] options = new String[1]; 
options[0] = "-U"; // 不 修 前 树 选项 

J48 tree = new J48 () ; // J48 分 类 器 对 象 
tree. setOptions (options) ; // 设置 选项 
tree.buildclassifier (data) ; // 构建 分 类 器 


// 输出 生成 模型 


System. out.println (tree) 7 


构建 批量 分 类 器 的 主要 方法 是 buildClassifier， 该 方法 用 于 生成 分 类 器 ， 所 带 的 参数 为 
训练 分 类 器 使 用 的 数据 集 。 
运行 程序 后 ， 输 出 如 下 的 J48 不 修剪 决策 树 : 


J48 unpruned tree 


outlook = sunny 

| humidity = high: no (3.0) 

| humidity = normal: yes (2.0) 
outlook = overcast: yes (4.0) 
outlook = rainy 

| windy = TRUE: no (2.0) 

| windy = FALSE: yes (3.0) 


Number of Leaves : 5 

Size of the tree : 8 

得 到 决策 树 后 ， 就 可 以 将 模型 用 于 预测 新 的 数据 实例 的 类 别 。 
2. 增 量 分 类 器 构建 


与 批量 分 类 器 不 同 ， 增 量 分 类 器 必须 实现 UpdateableClassifier 接口 ， 该 接口 为 增 量 分 


类 模型 接 


， 人 允许 在 某 一 时 间 使 用 一 个 实例 进行 学 习 ， 而 不 要 求 必须 提供 学 习 的 全 部 实 


例 。 这 里 有 一 个 小 窍门 ， 如 果 不 知 道 菜 个 分 类 器 是 否 支 持 增 量 模 式 ， 只 要 看 看 分 类 器 的 类 


是 否 实现 如 


pdateableClassifier 接口 就 知道 了 。 


完整 示例 代码 如 程序 清单 7.36 所 示 ， 程 序 中 训练 增 量 分 类 器 分 为 两 步 : 首先 调用 
buildClassifier(Imnstances) 方 法 进行 模型 初始 化 ， 这 里 的 参数 Instances 对 象 不 带 实际 数据 ， 
只 是 训练 集 的 结构 ;然后 循环 调用 updateClassifier(Instance) 方 法 ， 该 方法 的 输入 参数 
Instance 对 象 为 增 量 实例 ， 这 样 就 实现 了 对 模型 的 增 量 更 新 。 


程序 清单 7.36 IncrementalClassifierjava 


package wekalearning.classifiers; 
import weka.classifiers.bayes.NaiveBayesUpdateable; 
import weka.core.Instance; 


import weka.core.Instances; 
import weka.core.converters.ArffLoader; 


import java.io.File; 


区 流入 
* 增 量 方式 构建 NaiveBayes 分 类 器 ， 并 输出 生成 模型 
WA 


public class IncrementalClassifier { 


public static void main(String[] args) throws Exception { 
// 加 载 数 据 
ArffLoader loader = new ArffLoader(); 
loader.setFile (new File("C:/Weka-3-7/data/weather.nominal .arff")); 
Instances structure = loader.getstructure(); 
structure.setClassIndex (structure.numAttributes() - 1); 


// 训练 NaiveBayes 分 类 器 

NaiveBayesUpdateable nb = new NaiveBayesUpdateable(); 

nb.buildclassifier (structure); 

Instance instance; 

while ((instance = loader.getNextInstance(structure)) != null) 
nb.updateClassifier (instance); 


// 输出 生成 模型 
System.out.println (nb); 


} 
运行 程序 后 的 输出 结果 如 下 : 


Naive Bayes Classifier 
Class 


Attribute yes no 
(0.63) (0.38) 


outlook 
sunny 3.0 4.0 
overcast 5.0 1.0 
rainy 4.0 3.0 
[totall] 12.0 8.0 
temperature 
hot 3 3.0 
mild 5.0 3.0 
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— WE 
Cool 4.0 2.0 
[total] 12.0 8.0 
humidity 
high 4.0 5.0 
normal 7.0 2.0 
[totall] 110 ?0 
windy 
TRUE 4.0 4.0 
FALSE Ts 3.0 
[totall] 11:0 “FT0 
3. 输出 类 别 分 布 


使 用 批量 模式 或 增 量 模式 构建 分 类 器 之 后 ， 就 可 以 对 新 的 样本 分 类 ， 即 为 新 样本 数据 
打上 类 别 标签 。 本 示例 使 用 训练 集 采 用 批量 模式 构建 J48 分 类 器 ， 然 后 预测 专用 测试 集 
的 类 别 ， 并 输出 测试 集中 实际 的 和 预测 的 类 别 标签 以 及 分 布 。 完 整 代 码 如 程序 清单 7.37 
所 示 。 

程序 首先 加 载 训练 集 和 测试 集 ， 然 后 使 用 训练 集 以 批量 方式 构建 分 类 器 ， 使 用 一 个 单 
循环 遍历 整个 测试 集 ， 调 用 J48 对 象 的 classifyInstance 方法 对 实例 进行 分 类 ， 返 回 double 
型 的 类 别 标签 ， 调 用 distributionForInstance 方法 返回 实例 的 类 别 概率 (double 型 的 数组 ); 
最 后 输出 实例 的 编号 、 实 际 类 别 、 预 测 类 别 、 是 否 错误 和 类 别 标签 的 分 布 。 


程序 清单 7.37 OutputClassDistribution.java 


Ppackage wekalearning.classifiers; 


import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


Rs 太太 
* 本 示例 用 训练 集 构建 J48 分 类 器 ， 预 测 测试 集 的 类 别 ， 并 输出 实际 的 和 预测 的 类 别 标签 以 及 分 布 
SF 


public class OutputClassDistribution { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 

Instances test = DataSource.read("C:/Weka-3-7/data/segment-test .arff"); 
// 设置 类 别 索引 

train.setClassIndex (train.numAttributes() - 1); 

test .setClassIndqex (test .numAttributes() - 1); 

// 检查 训练 集 和 测试 集 是 否 兼容 

if (!train.equalHeaders (test) ) 

throw new Exception (" 训 练 集 和 测试 集 不 兼容 : " 


} 


+ train.equalHeadersMsg (test)); 


// 训练 分 类 器 
J48 classifier = new J48(); 
classifier.buildclassifier (train); 


// 输出 预测 
System. out.println (" 编 号 \t-\t 实际 \t-\t 预测 \t-\t 错误 \t-\t 分 布 ") ; 
for (int i = 0; i < test.numInstances(); i++) { 
// 得 到 预测 值 
double pred = classifier.classifyInstance (test.instance (i)); 
// 得 到 分 布 
double[] dist = classifier.distributionForInstance (test.instance(i)); 
System.out.print ((i + 1)); 
System.out.print ("\t-\t "); 
System.out.print (test.instance (i) .toString (test.classIndex ())); 
System.out.print ("\t-\t "); 
System.out.print (test.classAttribute() .value ( (int) pred)); 
System.out.print (™\t-\t "); 
// 判断 是 否 预 测 错误 
if (pred != test.instance (i) .classValue () ) 
System. out.print (" 是 ") 7 
else 
System. out.print (" 否 ") 7 
System.out.print (™\t-\t "); 
System.out.print (Utils.arrayTostring (dist)); 
System.out.println(); 


运行 程序 后 ， 在 控制 台 输出 如 下 信息 : 


编号 - 
" 
二 。- 三 
寺 法 
沼 ” 闫 
和 
局 :二 

0 
p 

0 


实际 一 预测 - 错误 - 分 布 
cement — Cement 一 否 - 0.070.0,0.0,1.0,0300.010.0 
path - path - 否 - 0.0,0.0,0.0,0.0,0.0,1.0,0.0 
grass 一 grass = 否 - 0.070.07050.0.0v02070.01.0 
grass 一 grass 一 否 - 0:070.0.0:05.0.0,0.0;0.0,1.0 
window 一 window — 否 - 0.0,0.0,0.0,0.0,1.0,0.0,0.0 
foliage - foliage - 一 
.0,0.0,0.8666666666666667,0.0,0.13333333333333333,0.0,0.0 
brickface - brickface - 和 否 - 


.98989898989899,0.0,0.0,0.0,0.010101010101010102,0.0,0.0 


这 里 类 别 标签 的 分 布 是 一 个 数组 ， 采 用 逗号 分 隔 的 七 个 double 型 数值 表示 ， 这 些 数值 


的 总 和 为 


1， 分 别 代表 属于 类 别 标签 brickface、sky、foliage、cement、window、path、 


grass 的 概率 。 例 如 ， 在 编号 为 1 的 实例 中 ， 第 4 个 数值 为 1.0， 表 明 分 类 器 非常 确信 应 该 
将 第 1 个 实例 分 类 为 标签 cement; 而 编号 为 6 的 实例 中 ， 分 类 器 只 有 的 
86.7%(0.8666666666666667) 的 把 握 确 定 第 6 个 实例 应 该 分 类 为 标签 foliage。 
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4. 单 次 运行 交叉 验证 

在 没有 专用 测试 集 的 条 件 下 ， 使 用 交叉 验证 是 常用 的 方法 。 本 示例 展示 如 何 将 一 个 数 
据 集 划分 为 训练 集 和 测试 集 ， 并 使 用 交叉 验证 获取 分 类 器 的 性 能 。 

完整 代码 如 程序 清单 7.38 所 示 。 代 码 前 面部 分 的 加 载 数据 、 选 项 设置 和 随机 化 打 乱 数 
据 顺 序 都 已 经 学 习 过 ， 因 此 不 再 重复 说 明 。 代 码 的 核心 是 如 何 进行 十 折 交 叉 验 证 ， 本 示例 
使 用 一 个 循环 ， 在 循环 体内 部 划分 训练 集 和 测试 集 ， 分 别 调用 Instances 对 象 的 trainCV 方 
法 和 testCV 方法 。 前 者 在 数据 集中 划分 一 折 出 去 ， 剩 下 的 作为 训练 集 ， 方 法 的 第 一 个 参数 
为 交叉 验证 的 折 数 ， 必 须 大 于 1， 第 二 个 参数 为 划分 出 来 的 第 几 折 ， 这 里 0 为 第 一 折 ，1 
为 第 二 折 ， 以 此 类 推 ， 后 者 在 数据 集中 划分 一 折 出 来 作为 测试 集 ， 方 法 的 第 一 个 参数 为 交 
叉 验证 的 折 数 ， 必 须 大 于 1， 第 二 个 参数 为 划分 出 来 的 第 几 折 ， 这 里 0 为 第 一 折 ，1 为 第 
二 折 ， 以 此 类 推 。 

由 于 每 一 折 都 需要 运行 一 次 验证 ， 十 折 交 叉 验 证 就 要 运行 10 次 。 从 前 文 已 经 知道 ， 
交叉 验证 最 好 使 用 未 经 训练 的 分 类 器 ， 以 避免 不 必要 的 副作用 ， 每 次 循环 都 使 用 初始 提供 
的 分 类 器 的 复制 。 这 里 调用 AbstractClassifier 类 的 makeCopy 方法 ， 使 用 序列 化 进行 分 类 
器 的 深层 备份 ， 即 深 复制 。 然 后 调用 Classifier 对 象 的 buildClassifier 方法 构建 分 类 器 ， 调 
用 Evaluation 对 象 的 evaluateModel 方法 对 分 类 器 进行 评估 ， 最 后 输出 评估 结果 。 


程序 清单 7.38 RunOnceCVjava 


Package wekalearning.classifiers; 


import weka.classifiers.AbstractClassifier; 

import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


import java.util.Random; 
太太 
* 执行 单 次 运行 的 十 折 交 叉 验 证 
my 


public class RunonceCV { 


public static void main (String[] args) throws Exception { 


// 加 载 数据 
Instances data = DataSource.read("C:/Weka-3-7/data/ionosphere.arff"); 
// 设置 类 别 索引 
data.setclassIndex (data.numAttributes() - 1); 
// 分 类 器 
String[] options = new String[2]; 
String classname = "weka.classifiers.trees.J48"; 
options[0] = "-C"; ”// 默认 参数 
options[1] = "0.25"; 


Classifier classifier = (Classifier) Utils.forName(Classifier.class, 
classname, options); 


// 其 他 选项 
int seed = 1234; // 随机 种 子 
int folds = 10; // 折 数 


// 随机 化 数据 

Random rand = new Random (seed); 

Instances newData = new Instances (data); 

newData.randomize (rand); 

// 如 果 类 别 为 标 称 型 ， 则 根据 其 类 别 值 进行 分 层 

if (newData.classAttribute() .isNominal ()) 
newData.stratify (folds); 


// 执行 交叉 验证 

Evaluation eval = new Evaluation (newData); 

for (int i = 0; i < folds; i++) { 
// 训练 集 
Instances train = newData.traincV (folds, i); 
// 测试 集 


Instances test = newData.testCV (folds, i); 


// 构建 并 评估 分 类 器 

Classifier clsCopy = AbstractClassifier.makeCopy (classifier); 
clsCopy.buildclassifier (train); 

eval .evaluateModel (clsCopy, test); 


} 


// 输出 评估 

System.out.println(); 

System. out.println (" 一 = 分 类 器 设置 一 ="); 

System. out.println ("分 类 器 : " + Utils.toCommandLine (classifier)); 
System. out.println ("数据 集 : " + data.relationName ()); 

System. out.println(" 折 数 : " + folds); 

System. out.println ("随机 种 子 : " + seed); 

System.out.println(); 

System.out.println (eval.toSummaryString("=== " + folds 


+ " 折 交 叉 验 证 一 ="，false) ) ; 


} 
运行 程序 后 ， 在 控制 台 输 出 分 类 器 设置 和 评估 结果 ， 具 体 如 下 : 


一 = 分 类 器 设置 一 

分 类 器 : weka.classifiers.trees.J48 -C 0.25 -M2 
数据 集 : ionosphere 

折 数 : 10 

随机 种 子 : 1234 


一 十 折 交 叉 验 证 一 
Correctly Classified Instances 319 90.8832 $% 
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Incorrectly Classified Instances 32 9.1168 多 
Kappa statistic 0.7991 
Mean absolute error 0.1016 
Root mean squared error 0.2959 
Relative absolute error 22.0646 $% 
Root relative squared error 61.686 $% 
Coverage of cases (0.95 level) 92.3077 $ 
Mean rel. region size (0.95 level) 52.849 $ 
Total Number of Instances 351 


5. 交叉 验证 并 预测 


如 果 交 叉 验 证 后 ， 挖 掘 者 满意 分 类 器 的 性 能 ， 就 可 以 用 训练 好 的 分 类 器 对 未 知 类 别 的 
新 样本 进行 预测 。 

本 示例 在 前 一 个 示例 的 基础 上 添加 预测 的 功能 ， 完 整 代码 如 程序 清单 7.39 所 示 。 由 于 
在 前 一 个 示例 中 己 经 叙述 了 如 何 构 建 分 类 器 以 及 使 用 交叉 验证 对 其 进行 评估 这 些 技术 细 
节 ， 本 示例 主要 叙述 如 何 进行 预测 。 程 序 使 用 AddClassification 过 滤器 对 象 ， 该 过 滤器 和 
分 类 器 一 起 对 数据 集 添 加 一 个 类 别 、 类 别 分 布 和 错误 标志 ， 分 类 器 既 可 以 用 数据 本 身 进行 
训练 ， 也 可 以 读 取 序列 化 模型 文件 。 本 例 调 用 了 AddClassification 对 象 的 多 个 方法 来 设置 
过 滤器 ， 其 中 ，setClassifier 方法 设置 对 实例 分 类 的 分 类 器 ; setOutputClassification 方法 设 
置 是 否 输出 分 类 器 预测 的 类 别 ，setOutputDistribution 方法 设置 是 否 输出 分 类 器 的 分 布 ; 
setOutputErrorFlag 方法 设置 是 否 输出 分 类 器 的 错误 标志 ; setInputFormat 方法 设置 输入 实例 
的 格式 ， 同 时 复位 过 滤器 的 状态 。 然 后 ， 程 序 调用 Filter 类 的 useFilter 方法 ， 用 已 经 设置 
好 的 过 滤器 对 整个 实例 集合 进行 过 滤 ， 并 返回 过 滤 后 的 新 数据 集 ， 最 后 写 入 数据 文件 。 


程序 清单 7.39 CVPrediction.java 


Package wekalearning.classifiers; 


import weka.classifiers.AbstractClassifier; 

import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.core.Instances; 

import weka.core.OptionHandler; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.Datasink; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.supervised.attribute.Addclassification; 


import java.util.Random; 
六 去 友 
* 执行 单 次 交叉 验证 ， 并 将 预测 结果 保存 为 文件 


public class CVPrediction { 


public static void main (String[] args) throws Exception { 


// 加 载 数据 

Instances data = DataSource.read("C:/Weka-3-7/data/ionosphere.arff"); 
// 设置 类 别 索引 

data.setClassIndex (data.numAttributes() - 1); 

// 分 类 器 

String[] tmpOptions = new String[2]; 

String classname = "weka.classifiers.trees.J48"; 

tmpoptions[0] = "-C"; // 默认 参数 


tmpOptions[1] = "0.25"; 
Classifier classifier = (Classifier) Utils.forName (Classifier.class, 
classname, tmpoptions); 


// 其 他 选项 
int seed = 1234; // 随机 种 子 
int folds = 10; // 折 数 


// 随机 化 数据 

Random rand = new Random (seed); 

Instances newData = new Instances (data); 

newData.randomize (rand); 

// 如 果 类 别 为 标 称 型 ， 则 根据 其 类 别 值 进 行 分 层 

if (newData.classAttribute() .isNominal()) 
newData.stratify (folds); 


// 执行 交叉 验证 ， 并 添加 预测 
Instances predictedData = null;  // 预测 数据 
Evaluation eval = new Evaluation (newData); 
for (int i = 0; i < folds; i++) { 
// 训练 集 
Instances train = newData.trainCV (folds, i); 
// 测试 集 


Instances test = newData.testCV (folds, i); 


// 构建 并 评估 分 类 器 

Classifier clsCopy = AbstractClassifier.makeCopy (classifier); 
clsCopy.buildclassifier (train); 

eval .evaluateModel (clsCopy, test); 


// 添加 预测 

Addclassification filter = new AddClassification(); 
filter.setClassifier (classifier); 
filter.setoutputClassification (true); 
filter.setOutputDistribution (true); 
filter.setOoutputErrorFlag (true); 
filter.setInputFormat (train); 

// 训练 分 类 器 

Filter.useFilter(train, filter); 

// 在 测试 集 上 预测 


Instances pred = Filter.useFilter(test, filter); 
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if (predictedData 一 null) 

predictedData = new Instances (pred，0); ”// 防止 预测 数据 集 为 空 
for (int j = 0; j < pred.numInstances(); j++) 

predictedData.add (pred.instance (j)); 


// 评估 结果 输出 
System.out.println(); 
System. out.println(" 分 类 器 设置 一 =") ; 
// 分 类 器 是 否 实现 OptionHandler 接口 
if (classifier instanceof OptionHandler) 
System.out.println (" 分 类 器 : " + classifier.getClass () .getName() +"" 
+ Utils.joinoptions(((OptionHandler) classifier) .getoptions())); 
else 
System.out.println (" 分 类 器 : " + classifier.getClass () .getName ()) 
System. out.println ("数据 集 : " + data.relationName ())7 
System. out.println(" 折 数 : " + folds); 
System. out.println ("随机 种 子 : " + seed) ; 
System.out.println(); 
System.out.println (eval.toSsummaryString ("=== " + folds 


+" 折 交叉 验证 一 ="，false) ); 


// 写 入 数据 文件 
DatasSink.write("d:/predictions.arff", predictedData); 


} 


运行 程序 后 ， 控 制 台 会 输出 评估 结果 ， 并 且 会 保存 预测 的 数据 文件 。 使 用 Weka 的 
ArffViewer 工具 打开 数据 文件 ， 可 以 看 到 在 原 数 据 文件 的 基础 上 ， 顺 序 添加 了 名 称 为 
classification、distribution b、distribution g 和 error 的 四 个 属性 ， 分 别 表 示 预 测 的 类 别 、 预 
测 为 b 的 分 布 、 预 测 为 g 的 分 布 以 及 错误 标志 ， 如 图 7.6 所 示 。 


图 7.6 预测 的 数据 文件 


6. 多 次 运行 交叉 验证 

单 次 的 十 折 交 叉 验 证 不 一 定 能 得 到 可 靠 的 误差 估计 ， 采 用 同样 的 学 习 算法 ， 在 同样 数 
据 集 上 运行 多 次 的 十 折 交 叉 验 证 ， 通 常会 得 到 更 符合 实际 的 结果 。 获 得 准确 的 误差 估计 的 
标准 方式 是 重复 10 次 的 交叉 验证 ， 即 10 次 十 折 交 叉 验证 ， 这 样 就 一 共 运行 了 100 次 实 
验 ， 然 后 取 平 均值 。 可 见 ， 要 获得 好 的 测试 结果 需要 密集 型 的 计算 。 


本 示例 在 前 面 的 十 折 交 叉 验 证 的 基础 上 加 一 个 外 循环 ， 实 现 10 次 运行 的 十 折 交 叉 验 
证 。 完 整 代码 如 程序 清单 7.40 所 示 。10 次 十 折 交 叉 验 证 的 关键 是 随机 种 子 的 选择 ， 能 进 
行 可 重复 性 实验 这 一 条 件 要 求 每 次 运行 十 折 交 叉 验 证 的 随机 种 子 要 固定 下 来 ， 并 且 每 次 的 
随机 种 子 要 和 其 他 次 的 种 子 有 所 不 同 ， 这 样 才 能 得 到 较 好 的 测试 结果 。 因 此 ， 本 示例 采用 
一 种 简单 的 方式 ， 把 循环 次 数 与 一 个 常数 (这 里 取 1234) 的 和 作为 每 次 运行 交叉 验证 的 随机 
种 子 。 


程序 清单 7.40 RunTenTimesCVjava 


Package wekalearning.classifiers; 


import weka.classifiers.AbstractClassifier; 

import weka.classifiers.Classifier; 

import weka.classifiers.Evaluation; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


import java.util.Random; 


天 太太 

* 执行 10 次 运行 的 十 折 交 叉 验 证 
Sy 

public class RunTenTimesCV { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
Instances data = DataSource.read("C:/Weka-3-7/data/labor.arff"); 


// 设置 类 别 索引 


data.setClassIndex (data.numAttributes() - 1); 
// 分 类 器 

String[] tmpOoptions = new String[2]; 

String classname = "weka.classifiers.trees.J48"; 
tmpoptions [0] = // 默认 参数 
tmpoptions[1] = "0.25"; 


Classifier classifier = (Classifier) Utils.forName(Classifier.class, 
classname, tmpOptions); 


// 其 他 选项 
int runs = 10; // 运行 次 数 
int folds = 10; // 折 数 


// 执行 交叉 验证 

for (int i = 0; i < runs; i++) { 
// 随机 化 数据 
int seed = i + 1234; // 随机 种 子 
Random rand = new Random (Seed) 
Instances newData = new Instances (data); 
newData.randomize (rand); 
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} 


// 如 果 类 别 为 标 称 型 ， 则 根据 其 类 别 值 进 行 分 层 
if (newData.-classRAttribute () .IsNomjnal() ) 
newData.stratify (folds); 


Evaluation eval = new Evaluation (newData); 
for (int j = 0; j < folds; j++) { 
// 训练 集 
Instances train = newData.traincV (folds, j); 
// 测试 集 
Instances test = newData.testCV (folds, j); 


// 构建 并 评估 分 类 器 
Classifier clsCopy = AbstractClassifier.makeCopy (classifier); 
clsCopy.buildclassifier (train); 
eval .evaluateModel (clsCopy, test); 
} 


// 评估 结果 输出 
System.out.println(); 
System.out.println(" 运行 第 "+ (i + 1) + "次 的 分 类 器 设置 = 一 ") 
System.out.println ("分 类 器 : " + Utils.toCommandLine(classifier)); 
System.out.println ("数据 集 : " + data.relationName ()); 
System.out.println(" 折 数 : " + folds); 
System.out.println (" 随 机 种 子 ，"” + seed) 
System.out.println(); 
System. out.println (eval.tosummarystring("=— " + folds 

+ " 折 交 叉 验证 运行 第 "+ (i + 1) + "次 一 ="，false)); 


运行 程序 后 ， 在 控制 台 打印 每 次 运行 的 分 类 器 设置 以 及 评估 结果 。 


7.7 聚 类 


聚 类 是 一 种 在 数据 中 发 现 模式 的 无 监督 机 器 学 习 技 术 ， 也 就 是 说 ， 这 些 算法 没有 类 别 
属性 。 与 分 类 不 同 ， 分 类 算法 需要 一 个 类 别 属 性 ， 是 有 监督 的 机 器 学 习 技术 。 本 节 讲 述 以 


下 三 个 主题 。 


第 一 ， 聚 类 器 构建 : 批量 和 增 量 学 习 。 
第 二 ， 聚 类 器 评估 : 如 何 评估 一 个 已 构建 的 聚 类 器 。 
第 三 ， 实 例 聚 类 : 确定 未 知 的 实例 属于 哪些 簇 。 


7.7.1 聚 类 器 构建 


与 分 类 器 一 样 ， 聚 类 器 也 是 为 批量 训练 而 设计 的 。 也 就 是 说 ， 它 们 都 可 以 使 用 完全 调 
入 到 内 存 中 的 数据 进行 构建 。 此 外 ， 聚 类 算法 中 有 一 个 很 小 的 子 集 也 能 增 量 更 新 其 内 部 表 
示 ， 这 就 是 增 量 聚 类 器 。 下 面 分 别 讲述 批量 聚 类 器 和 增 量 聚 类 器 。 


和 构建 批量 分 类 器 一 样 ， 构 建 批量 聚 类 器 也 分 为 两 个 阶段 。 第 一 阶段 ， 设 置 选 项 。 可 
以 调用 setOptions(String[]) 方 法 ， 或 调用 相应 属性 的 set 方法 。 第 二 阶段 ， 使 用 训练 数据 构 
建 模型 。 调 用 buildClusterer(Instances) 方 法 ， 根 据 定义 ， 后 续 对 该 方法 的 调用 必须 能 够 导致 
同样 的 模型 ， 即 能 进行 “可 重复 实验 ”。 换 句 话 说 ， 调 用 该 方法 必须 使 模型 完全 重 置 。 

程序 清单 7.41 是 构建 一 个 最 多 和 迭代 100 次 的 EM 聚 类 器 的 示例 ， 调 用 
setOptions(String[]) 方 法 设置 选项 。 


程序 清单 7.41 构建 EM 聚 类 器 代码 片段 


Instances data = ... // 数据 集 
String[] options = new String[2]; 

options[0] = "-I"; // 最 大 迁 代 次 数 
options[1] = "100"; 

EM clusterer = new EM(); // 聚 类 器 的 新 实例 


clusterer.setOptions (options) 7 // 设置 选项 
clusterer.buildclusterer (data) ; ”// 构建 聚 类 器 


Weka 的 增 量 聚 类 器 实现 weka.clusterers 包 的 UpdateableClusterer 接口 。 类 似 于 增 量 分 
类 器 ， 增 量 聚 类 器 的 训练 分 三 个 阶段 。 第 一 阶段 ， 通 过 调用 buildClusterer(Instances) 方法 
初始 化 模型 。 用 户 可 以 使 用 一 个 空 weka.core .Instances 对 象 ， 或 者 一 个 初始 数据 集 。 第 二 
阶段 ， 调 用 updateClusterer(Instance) 方 法 一 行 接 一 行 地 更 新 模型 。 第 三 阶段 ， 调 用 
updateFinished() 方 法 完成 训练 ， 也 许 聚 类 算法 还 要 进行 费时 的 后 处 理 或 清理 操作 。 

程序 清单 7.42 中 ， 使 用 ArffLoader 对 象 加 载 数 据 集 并 增 量 构建 Cobweb 聚 类 器 。 


程序 清单 7.42 ”构建 增 量 聚 类 器 代码 片段 


// 加 载 数据 

ArffLoader loader = new ArffLoader(); 

loader.setFile (new File("/dir/data.arff")); 

Instances structure = loader.getstructure(); 

// 训练 Cobweb 

Cobweb cw = new Cobweb(); 

cw.buildclusterer (structure); 

Instance current; 

while ((current = loader.getNextInstance(structure)) != null) 
cw.updateClusterer (current); 

cw.updateFinished(); 


7.7.2 聚 类 器 评估 


聚 类 器 评估 不 像 分 类 器 评估 那样 容易 做 得 很 全 面 。 由 于 聚 类 是 无 监督 的 ， 因 此 很 难 确 
定 一 个 模型 的 性 能 到 底 有 多 好 。Weka 用 于 评估 聚 类 算法 的 是 weka.clusterers 包 的 
ClusterEvaluation 类 。 

为 了 在 探索 者 界面 和 命令 行 界 面 中 都 能 产生 相同 的 输出 ， 可 以 调用 evaluateClusterer 
方法 ， 代 码 片 断 见 程序 清单 7.43 。 
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程序 清单 7.43 聚 类 器 评估 代码 片段 

String[] options = new String[2]; 

options[0] = "-t"; 

options[1] = "/dir/somefile.arff"; 

System.out.println (ClusterEvaluation.evaluateClusterer (new EM(), options)); 


或 者 ， 如 果 数 据 集 已 经 在 内 存 中 ， 可 以 用 程序 清单 7.44 所 示 的 方法 。 


程序 清单 7.44 评估 内 存 数据 的 聚 类 器 代码 片段 


Instances data = ... // 数据 集 

EM cl = new EM() 7 

cl.buildclusterer (data) 7 

ClusterEvaluation eval = new ClusterEvaluation () 7 
eval.setClusterer (c1); 

eval .evaluateClusterer (new Instances (data)); 
System.out.println (eval.clusterResultsTostring()); 


基于 密度 的 聚 类 器 ， 即 实现 weka.clusterers 包 的 DensityBasedClusterer 接口 的 算法 ， 能 
够 进行 交叉 验证 ， 并 获取 对 数 似 然 。 任 何 非 基 于 密度 的 聚 类 器 都 可 以 使 用 
MakeDensityBasedClusterer 元 聚 类 器 转化 为 基于 密度 的 聚 类 器 。 如 下 示例 展示 了 一 个 基于 
密度 的 聚 类 器 的 交叉 验证 ， 并 获取 对 数 似 然 。 


程序 清单 7.45 基于 密度 的 聚 类 器 代码 片段 


Instances data = ... // 数据 集 

DensityBasedCclusterer clusterer = new ... // 要 评估 的 聚 类 器 

double logLikelyhood =ClusterEvaluation.crossValidateModel ( // 交叉 验证 
clusterer, data, 10, // 十 折 
new Random(1234) ) 7 // 种 子 为 1234 的 随机 数 发 生 器 


提供 给 有 监督 的 算法 (如 分 类 器 ) 的 数据 集 ， 也 可 用 于 评估 聚 类 器 。 由 于 在 算法 中 将 簇 
映射 回 类 别 ， 这 种 评估 称 为 classes-to-clusters( 类 别 到 簇 )。 

这 种 评估 按照 以 下 步骤 进行 : 第 一 ， 创 建 包 含 类 别 属性 的 数据 集 的 一 个 副本 ， 并 使 用 
weka.filters.unsupervised.attributeRemove 包 的 过 滤器 删除 类 别 属性 ， 第 二 ， 建 立新 的 数据 构 
建 聚 类 器 ， 第 三 ， 使 用 原始 数据 对 聚 类 器 进行 评估 。 

可 以 将 上 述 步 又 翻译 成 代码 ， 使 用 EM 作为 要 评估 的 聚 类 器 。 步 又 如 下 。 

第 一 步 ， 创 建 没有 类 别 属性 数据 的 副本 : 

Instances data = ... // 数据 集 

Remove filter = new Remove(); 

filter.setAttributeIndices("" + (data.classIndex() + 1)); 


filter.setInputFormat (data); 
Instances dataClusterer = Filter.useFilter(data, filter); 


第 二 步 ， 构 建 聚 类 器 : 


EM Clusterer = new EM() 7 
// 如 果 有 必要 ， 进 一 步 设置 EM 选项 


clusterer.buildCclusterer (dataClusterer); 


第 三 步 ， 评 估 到 类 器 : 


ClusterEvaluation eval = new ClusterEvaluation(); 
eval.setClusterer (clusterer); 

eval .evaluateClusterer (data); 

// 打印 结果 


System.out .println (eval.clusterResultsTostring ()); 


7.7.3 ”实例 聚 类 


实例 聚 类 与 使 用 分 类 器 对 未 知 实例 进行 分 类 非常 相似 ， 涉 及 以 下 两 种 方法 。 

(1) clusterInstance(Instance): 确定 实例 隶属 于 哪个 簇 。 

(2) distributionForInstance(Instance): 预测 实例 隶属 于 簇 的 隶属 度 。 该 数组 的 总 和 为 1。 

程序 清单 7.46 所 示 的 示例 展示 如 何 用 一 个 数据 集训 练 EM 聚 类 器 ， 并 循环 输出 对 第 二 
个 数据 集 的 单个 实例 所 属 儿 以 及 簇 隶 属 度 进行 预测 的 结果 。 


程序 清单 7.46 ”实例 聚 类 代码 片段 


- // 第 一 个 数据 集 
. // 第 二 个 数据 集 


Instances datasetl 
Instances dataset2 
// 构建 聚 类 器 
EM clusterer = new EM(); 
clusterer.buildclusterer (dataset1) 7 
// 输出 预测 
System.out .println("# - Cluster - distribution"); 
for (int i = 0; i < dataset2.numInstances(); i++) { 
int cluster = clusterer.clusterInstance (dataset?2.instance (i)); 
double[] dist = clusterer.distributionForInstance (dataset2.instance (i)); 
System.out .print ( (i+1)); 
System.out.print (™ — "); 
System.out.print (cluster); 
System.out.print (™ — "); 
System.out .print (Utils.arrayTostring (dist)); 
System.out .println(); 


7.7.4 手把手 教 你 用 

1. 批量 聚 类 器 构建 

构建 批量 聚 类 器 和 构建 批量 分 类 器 的 步骤 一 样 ， 都 分 为 两 个 步骤 ， 先 设置 选项 ， 然 后 
使 用 训练 数据 构建 聚 类 模型 。 完 整 的 批量 训练 EM 算法 代码 如 程序 清单 7.47 所 示 。 程 序 不 
难 理解 ， 调 用 setOptions 方法 解析 传 入 的 参数 数组 ; 调用 buildClusterer 方法 生成 聚 类 器 ， 
如 果 聚 类 器 的 某 些 字段 没有 通过 选项 设置 ， 在 这 一 步 就 会 初始 化 这 些 字段 。 

程序 清单 7.47 BatchClustererjava 

Package wekalearning.clusterers; 


import weka.core.Instances; 
import weka.core.converters.ArffLoader; 
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import weka.clusterers.EM; 
import java.io.File; 


/** 

* 批量 训练 EM 算法 

sp 

public class BatchClusterer { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
ArffLoader loader = new ArffLoader(); 
loader.setFile (new File("C:/Weka-3-7/data/contact-lenses.arff")); 
Instances data = loader.getDataset (); 


// 构建 聚 类 器 

String[] options = new String[2]; 
options[0] = "-I"; // 最 大 友 代 次 数 
options[1] = "100"; 

EM clusterer = new EM() ; // 聚 类 器 的 新 实例 
clusterer.setoptions (options); // 设置 选项 
clusterer.buildclusterer (data); 


// 输出 生成 模型 


System.out.println (clusterer); 
} 


2. 增 量 聚 类 器 构建 


前 文 已 经 讲述 过 ，Weka 的 增 量 聚 类 器 必须 实现 weka.clusterers 包 的 
UpdateableClusterer 接口 。 如 果 挖 掘 者 不 知道 哪些 聚 类 器 算法 可 以 用 于 增 量 模式 ， 只 要 看 
看 UpdateableClusterer 接口 API 文档 即 可 ,但 到 目前 为 止 ，Weka 实现 该 接口 的 算法 只 有 
Canopy 和 Cobweb。 

训练 增 量 聚 类 器 的 程序 比 训练 批量 聚 类 器 的 稍微 复杂 一 点 ， 完 整 代码 如 程序 清单 7.48 
所 示 。 首 先 调用 buildClusterer(Instances) 方法 初始 化 聚 类 器 模型 ， 这 里 使 用 一 个 空 
weka.core.Instances 对 象 ， 然 后 循环 调用 updateClusterer(Instance) 方 法 ， 一 行 一 行 地 更 新 模 
型 ， 最 后 调用 updateFinished() 方 法 完成 训练 。 当 然 ， 为 了 查看 生成 的 模型 ， 还 需要 在 控制 
台 输 出 。 

程序 清单 7.48 ”IncrementalClustererjava 


Package wekalearning.clusterers; 


import weka.core.Instance; 

import weka.core.Instances; 

import weka.core.converters.ArffLoader; 
import weka.clusterers .Cobweb; 


import java.io-.File7 


/ 一 友 
* 增 量 训练 Cobweb 算法 
SF 
public class IncrementalClusterer { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
ArffLoader loader = new ArffLoader(); 
loader .setFile (new File("C:/Weka-3-7/data/contact-lenses.arff")); 
Instances structure = loader.getstructure(); 


// 训练 Cobweb 

Cobweb cw = new Cobweb(); 

cw.buildclusterer (structure); 

Instance current; 

while ((current = loader.getNextInstance(structure)) != null) 
cw.updateClusterer (current); 

cw.updateFinished(); 


// 输出 生成 模型 


System.out.println (cw); 
} 


3. 聚 类 器 评估 


前 面 两 个 示例 完成 了 聚 类 器 的 构建 ， 但 没有 对 聚 类 器 进行 评估 。 因 为 聚 类 是 无 监督 的 
学 习 ， 因 此 难以 确定 聚 类 模型 的 性 能 。 本 示例 给 出 了 评估 聚 类 器 的 三 种 方式 ， 完 整 代码 如 
程序 清单 7.49 所 示 。 

第 一 种 方式 是 一 种 常规 的 方法 ， 直 接 使 用 -t 选项 指定 训练 文件 ， 然 后 调用 
ClusterEvaluation 类 的 静态 方法 evaluateClusterer， 该 方法 使 用 选项 中 给 定 的 字符 串 数组 评 
估 聚 类 器 。 本 例 中 方法 带 两 个 参数 ， 第 一 个 参数 是 要 评估 的 聚 类 器 ， 第 二 个 参数 是 字符 串 
数组 的 选项 。 常 常 使 用 -t 和 -T 选项 ， 前 者 指定 训练 文件 ， 后 者 指定 测试 文件 ， 本 例 省 略 了 
指定 测试 文件 的 选项 ， 默 认 执行 分 层 十 折 交 叉 验 证 。 

第 二 种 方式 采用 手工 调用 。 与 第 一 种 方式 不 同 的 是 ， 这 里 实例 化 ClusterEvaluation 对 
象 ， 调 用 该 对 象 的 setClusterer 方法 和 evaluateClusterer 方法 。setClusterer 方法 设置 所 使 用 
的 聚 类 器 对 象 ，evaluateClusterer 方法 输入 一 组 实例 作为 参数 ， 评 估 聚 类 器 的 性 能 。 最 后 调 
用 ClusterEvaluation 对 象 的 clusterResultsToString 方法 ， 该 方法 返回 详细 说 明 对 数据 集聚 类 
结果 的 字符 串 。 

第 三 种 方式 采用 交叉 验证 。 直 接 调 用 ClusterEvaluation 类 的 静态 方法 
crossValidateModel， 该 方法 对 基于 密度 的 聚 类 器 执行 交叉 验证 。 该 方法 带 四 个 参数 ， 第 一 
个 参数 为 要 评估 的 聚 类 器 ， 第 二 个 参数 为 训练 数据 ， 第 三 个 参数 为 要 执行 的 交叉 验证 的 折 
数 ， 第 四 个 参数 为 交叉 验证 随机 数 种 子 。 方 法 返回 一 个 double 类 型 的 数值 ， 这 是 交叉 验证 
的 对 数 似 然 。 
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程序 清单 7.49 ClusteringEvaluation java 


package wekalearning.clusterers; 


import weka.clusterers.ClusterEvaluation; 

import weka.clusterers.DensityBasedClusterer; 

import weka.clusterers .EM; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 


/ 于 入 

* 三 种 评估 聚 类 器 的 方式 

i 

public class ClusteringEvaluation { 


public static void main (String[] args) throws Exception { 
String filename = "C:/Weka-3-7/data/contact-lenses.arff"; 
ClusterEvaluation clusterEval; 
Instances data; 
String[] options; 
DensityBasedclusterer dbc; // 基于 密度 的 聚 类 器 
double logLikelyhood; 


// 加 载 数据 


data = DataSource.reaad(filename) 7 


// 常规 方法 

System. out.println("\n****** 常规 方法 ") ; 
options = new String[2]; 

options[0] = "-t"; // 指定 训练 文件 
options[1] = filename; 


String output = ClusterEvaluation.evaluateClusterer (new EM(), options); 


System.out.println (output); 


// 手工 调用 

System.out.println("\n****** 手工 调用 "); 

dbc = new EM(); 

dbc.buildclusterer (data); 

clusterEval = new ClusterEvaluation(); 

clusterEval .setClusterer (dbc); 

clusterEval .evaluateClusterer (new Instances (data)); 
System.out.println(clusterEval.clusterResultsTostring()); 


// 基于 密度 的 聚 类 器 交叉 验证 
System. out.println("\n****** 交叉 验证 ") 7 
dbc = new EM() 7 


logLikelyhood = ClusterEvaluation.crossValidateModel (dbc, data, 10, 


data.getRandomNumberGenerator (1234)); 
System. out.println ("对 数 似 然 : " + logLikelyhood); 


4. classes-to-clusters 


classes-to-clusters 评估 专用 于 比较 所 选择 的 簇 与 预先 设 定 的 类 别 的 匹配 程度 ， 在 这 种 
方式 下 ， 用 户 先 选择 一 个 属性 (通常 应 该 为 标 称 型 ) 代 表 “ 真 实 的 ”类 别 。 聚 类 数据 后 ， 
Weka 检查 每 个 簇 中 占 多 数 的 类 别 是 哪个 ， 并 且 可 以 打印 混淆 矩阵 以 显示 使 用 簇 来 替代 真 
实 类 别 后 的 误差 有 和 多大。 

完整 的 classes-to-clusters 评估 代码 如 程序 清单 7.50 所 示 。 程 序 首先 加 载 数 据 集 并 设置 
类 别 属性 的 索引 ， 然 后 使 用 Remove 过 滤器 移 除 类 别 属 性 ， 这 样 过 滤 后 得 到 的 新 数据 集 就 
不 再 包含 类 别 ， 避 免 给 聚 类 算法 多 余 的 信息 。 这 里 需要 注意 一 个 容易 犯错 的 问题 ， 
setClassIndex 方法 的 参数 为 int 型 数值 ， 是 从 0 开始 计数 的 索引 值 ; 而 setAttributeIndices 
方法 所 带 的 参数 为 字符 串 型 ， 是 使 用 逗号 分 割 的 属性 索引 列表 ， 由 于 该 字符 串 多 数 时 候 都 
来 自用 户 ， 因 此 索引 值 都 是 从 1 开始 计数 的 。 

使 用 ClusterEvaluation 对 象 对 聚 类 器 进行 评估 ， 这 是 专用 于 评估 聚 类 模型 的 Java 类 。 
本 例 使 用 到 该 对 象 的 两 个 方法 setClusterer 和 evaluateClusterer， 前 者 设置 所 使 用 的 聚 类 
器 ， 后 者 针对 一 组 实例 评估 聚 类 器 性 能 ， 计 算 聚 类 统计 特性 。 最 后 在 控制 台 打 印 评估 结果 。 


程序 清单 7.50 ClassesToClusters.java 


Package wekalearning.clusterers; 


import weka.clusterers.ClusterEvaluation; 

import weka.clusterers .EM; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.Remove; 


/** 

* 本 例 展示 如 何 执行 classes-to-clusters 评估 

*/ 

public class ClassesToClusters { 

public static void main (String[] args) throws Exception { 
// 加 载 数据 
Instances data = DataSource 
.read("C:/Weka-3-7/data/contact-lenses.arff"); 

data.setClassIndex (data.numAttributes() - 1); 


// 生成 聚 类 器 数据 ， 过 滤 以 去 除 类 别 属 性 

Remove filter = new Remove () 7 
filter.setAttributeIndices("" + (data.classIndex() + 1)); 
filter.setInputFormat (data); 

Instances dataClusterer = Filter.useFilter(data, filter); 


// 训练 聚 类 器 

EM clusterer = new EM() 7 

// 如 果 有 必要 ， 可 在 这 里 设置 更 多 选项 
// 构建 聚 类 器 
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clusterer.buildclusterer (dataClusterer); 


// 评估 聚 类 器 

ClusterEvaluation eval = new ClusterEvaluation(); 
eval.setClusterer (clusterer); 

eval .evaluateClusterer (data); 


// 输出 结果 


System.out.println (eval.clusterResultsTostring()); 


} 


5. 输出 聚 类 分 布 


本 示例 使 用 专 有 测试 集 ， 在 训练 集 上 构建 EM 聚 类 器 ， 然 后 在 测试 集 上 预测 每 个 实例 
属于 哪个 徐 ， 最 后 输出 簇 的 隶属 度 。 完 整 代码 如 程序 清单 7.51 所 示 ， 程 序 首先 加 载 训练 集 
和 测试 集 ， 然 后 使 用 训练 集 构建 EM 聚 类 器 ， 后 面 一 步 是 最 为 重要 的 。 本 例 使 用 一 个 循环 
遍历 整个 测试 集 ， 对 每 一 个 实例 预测 其 所 在 的 徐 并 计算 其 分 布 ， 调 用 聚 类 器 对 象 的 
clusterInstance 方法 预测 作为 输入 参数 的 实例 属于 哪个 禾 ， 调 用 distributionForInstance 方法 
预测 给 定 实 例 属于 某 个 簇 的 隶属 度 。 


程序 清单 7.51 OutputClusterDistribution.java 


Package wekalearning.clusterers; 


import weka.clusterers.EM; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


Pa 太太 
* 本 例 展示 在 训练 集 上 构建 EM 聚 类 器 ， 然 后 在 测试 集 上 预测 禾 并 输出 簇 的 隶属 度 
wf 


public class OutputClusterDistribution { 


public static void main(String[] args) throws Exception { 
// 加 载 数据 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 
Instances test = DataSource.read("C:/Weka-3-7/data/segment-test .arff"); 
if (!train.equalHeaders (test)) 
throw new Exception (" 训 练 集 和 测试 集 不 兼容 : " 
+ train.equalHeadersMsg (test) ) 7 


// 构建 聚 类 器 
EM clusterer = new EM() 7 
clusterer .buildclusterer (train); 


// 输出 预测 
System- out-println ("编号 - 簇 \t-\t 分 布 "); 


for (int i = 0; i < test.numInstances(); i++) { 
int cluster = clusterer.clusterInstance (test.instance (i)); 
double[] dist = clusterer.distributionForInstance (test.instance (i)); 
System.out.print ((i + 1)); 


System.out.print("” — "); 
System.out.print (cluster); 
System.out.print("” — "); 


System.out.print (Utils.arrayTostring(dist)); 
System.out.println(); 


7.8 属性 选择 


为 获得 最 佳 效 果 ， 正 确 准备 数据 是 非常 重要 的 一 步 。 有 些 算法 的 运行 时 间 与 属性 数量 
的 平方 成 正比 ， 减 少 属性 的 数量 可 以 加 快 算法 的 运行 。 为 了 建立 一 个 良好 的 模型 ， 当 只 有 
少数 属性 不 可 或 缺 时 ， 减 少 属性 数量 也 有 利于 避免 算法 “淹没 ”在 大 量 的 属性 中 。 

为 了 评价 属性 的 “重要 性 ”， 需 要 使 用 不 同 的 评估 器 。Weka 当前 有 三 种 不 同类 型 的 
评估 器 。 

(1) 单 属 性 的 评估 器 : 对 单个 属性 进行 评估 。 这 些 评估 器 需要 实现 
weka.attributeSelection.AttributeEvaluator 接口 。 通 常 将 Ranker 搜索 算法 与 这 些 算法 联合 
使 用 


(2) 属性 子 集 的 评估 器 : 对 数据 集 全 部 属性 的 子 集 进行 评估 。 这 些 评 估 器 需要 实现 
weka.attributeSelection.SubsetEvaluator 接口 。 

(3) 属性 集 评 估 器 : 评估 属性 的 集合 。 不 要 与 subset evaluators( 子 集 评估 器 ) 相 混淆 ， 
因为 这 些 类 都 派生 自 weka.attributeSelection.AttributeSetEvaluator 超 类 。 

大 部 分 的 属性 选择 方案 目前 都 实现 为 有 监督 的 ， 也 就 是 说 ， 这 些 方案 需要 带 类 别 属性 
的 数据 集 。 无 监督 的 评估 算法 需要 从 以 下 超 类 之 一 派生 。 

(1) weka.attributeSelection .UnsupervisedAttributeEvaluator， 例 如 ，LatentSemanticAnalysis、 
PrincipalComponents 。 

(2) weka_attributeSelection.UnsupervisedSubsetEvaluator， 目 前 还 没有 直接 子 类 。 

和 分 类 器 和 聚 类 器 一 样 ， 属 性 选择 也 提供 以 下 两 种 即时 过 滤 。 

(1) weka.attributeSelection.FilteredAttributeEval: 评估 单个 属性 的 过 滤器 。 

(2) weka.attributeSelection.FilteredSubsetEval: 评估 属性 子 集 的 过 滤器 。 

以 上 是 不 同 的 属性 选择 算法 的 差异 ， 现 在 回 到 如 何 进行 实际 的 属性 选择 ，Weka 为 此 
提供 了 以 下 三 种 不 同 的 方法 。 
(1) 使 用 元 分 类 器 : 执行 即时 属性 选择 ， 类 似 FilteredClassifier 的 即时 过 滤 。 
(2) 使 用 过 滤器 : 用 于 数据 预 处 理 。 
(3) 使 用 低级 API: 不 使 用 元 方案 (分 类 器 或 过 滤器 )， 而 是 直接 使 用 属性 选择 API。 
下 面 介 绍 每 个 主题 ， 都 附 有 代码 示例 。 为 了 清楚 和 便于 比较 ， 在 所 有 这 些 示 例 中 都 使 
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用 同样 的 评估 器 和 搜索 算法 。 


7.8.1 使 用 元 分 类 器 


元 分 类 器 AttributeSelectedClassifier( 该 分 类 器 位 于 包 weka.classifiers meta 中 ) 与 分 类 器 
FilteredClassifier 类 似 ， 但 不 采用 将 基 分 类 器 和 过 滤器 作为 参数 来 执行 过 滤 的 方法 ， 而 是 使 
用 一 个 由 wekaattributeSelection.ASEvaluation 类 派生 的 搜索 算法 ， 以 及 一 个 由 
weka.attributeSelection.ASSearch 类 派生 的 评估 器 来 执行 属性 选择 ， 并 由 基 分 类 器 对 精简 后 
的 数据 进行 训练 。 

程序 清单 7.52 所 示 的 示例 使 用 J48 作为 基 分 类 器 ，CfsSubsetEval 作为 评估 器 ， 以 及 反 
向 操作 GreedyStepwise 作为 搜索 方法 。 


程序 清单 7.S2 使 用 元 分 类 器 代码 片段 


Instances data = ... // 数据 集 

// 设置 元 分 类 器 

Attributeselectedclassifier classifier = new Attributeselectedclassifier(); 
CfsSubsetEval eval = new CfsSubsetEval (); 

GreedyStepwise search = new GreedyStepwise(); 
search.setSearchBackwards (true); 

J48 base = new J48(); 

classifier.setClassifier (base); 

classifier.setEvaluator (eval); 

classifier.setSearch (search); 

// 交叉 验证 分 类 器 

Evaluation evaluation = new Evaluation (data); 
evaluation.crossValidateModel (classifier, data, 10, new Random(1)); 
System.out .println (evaluation.tosummarystring ()); 


7.8.2 ”使 用 过 滤器 


当 数 据 只 需要 降低 维 数 但 不 用 于 训练 分 类 器 时 ， 过 滤器 方法 是 正确 的 选择 。 
weka.filters.supervised.attribute 包 的 AttributeSelection 过 滤器 需要 一 个 评估 器 和 搜索 算法 作 
为 参数 。 

程序 清单 7.53 所 示 的 示例 再 次 使 用 CfsSubsetEval 作为 评估 器 ， 并 使 用 反 向 操作 
GreedyStepwise 作为 搜索 算法 ， 在 过 滤 步 又 之 后 ， 仅 将 减少 后 的 数据 输出 到 标准 输出 。 


程序 清单 7.53 使 用 过 滤器 代码 片段 


Instances data = ... // 数据 集 

// 设置 过 滤器 

RAttributeSelection filter = new RttributeSelection () 7 
CfsSubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 
Search.setSearchBackwards (true); 

filter.setEvaluator (eval); 

filter.setSearch (search); 

filter.setInputFormat (data); 


// 过 滤 数据 
Instances newData = Filter.useFilter(data, filter); 
System.out .println (newData); 


7.8.3 ”使 用 底层 API 


使 用 元 分 类 器 或 过 滤器 的 方法 来 选择 属性 相当 容易 ， 但 也 不 一 定 能 够 满足 每 个 人 的 需 
求 。 例 如 ， 如 果 用 户 需要 使 用 Ranker 以 获得 属性 的 顺序 ， 或 者 需要 检索 已 选 定 属性 的 索 
引 ， 而 非 精 简 数据 ， 就 需要 直接 使 用 底层 API。 

与 其 他 示例 类 似 ， 程 序 清 单 7.54 所 示 的 示例 使 用 CfsSubsetEval 评估 器 和 
GreedyStepwise 的 搜索 算法 (向 后 模式 )。 但 是 ， 不 是 输出 精简 后 的 数据 ， 而 是 在 控制 台 打 
印 选 定 的 索引 。 


程序 清单 7.54 直接 使 用 API 代码 片段 
Instances data = ... // 数据 集 
// 属性 选择 设置 
RttributeSelection attsel = new Attributeselection(); 
CfsSubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 
Search.setSearchBackwards (true); 
attsel.setEvaluator (eval); 
attsel.setsearch (search); 
// 执行 属性 选择 
attsel.SelectAttributes (data); 
int[] indices = attsel.selectedAttributes(); 
System.out .println( 
"selected attribute indices (starting with 0):\n" 
+ Utils.arrayTostring (indices)); 


7.8.4 手把手 教 你 用 


1. 使 用 元 分 类 器 


本 示例 使 用 元 分 类 器 进行 属性 选择 ， 完 整 代码 如 程序 清单 7.55 所 示 。 程 序 首先 加 载 数 
据 文件 并 设置 类 别 属性 ， 然 后 实例 化 AttributeSelectedClassifier 对 象 ， 该 对 象 的 功能 是 ， 在 
传递 给 分 类 器 之 前 ， 用 属性 选择 来 降低 训练 数据 和 测试 数据 的 维度 。 随 后 ， 调 用 
AttributeSelectedClassifier 对 象 的 setClassifier 方法 设置 基 学 习 器 ， 这 里 是 一 个 J48 分 类 器 对 
象 ， 调 用 setEvaluator 方法 设置 属性 评估 器 ， 所 带 参数 为 ASEvaluation 类 的 派生 对 象 ， 这 
里 使 用 CfsSubsetEval 对 象 ， 调 用 setSearch 方法 设置 搜索 算法 ， 所 带 参数 为 ASSearch 类 的 
派生 对 象 ， 这 里 使 用 GreedyStepwise 对 象 。 最 后 ， 调 用 Evaluation 对 象 的 
crossValidateModel 方法 用 分 类 器 对 一 组 数据 执行 交叉 验证 ， 其 中 ， 第 一 个 参数 为 分 类 器 对 
象 ， 第 二 个 参数 为 要 进行 交叉 验证 的 数据 ， 第 三 个 参数 为 交叉 验证 的 折 数 ， 第 四 个 参数 为 
随机 数 产生 器 对 象 。 
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程序 清单 7.55 UseMetaClassifierjava 


package wekalearning.attributeSelection; 
import java.util.Random; 


import weka.attributeSelection.CfsSubsetEval; 

import weka.attributeSelection.GreedyStepwise; 

import weka.classifiers.Evaluation; 

import weka.classifiers.meta.AttributeSselectedclassifier; 
import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 


/** 

* 使 用 元 分 类 器 

i 

Ppublic class UseMetaClassifier { 


Public static void main (String[] args) throws Exception { 
// 加 载 数据 
DataSource source = new DataSource ("C:/Weka-3-7/ 
data/weather.numeric.arff"); 
Instances data = source.getDataset (); 
// 设置 类 别 属性 索引 
if (data.classIndex() 一 -1) 
data.setClassIndex (data.numAttributes() - 1); 


System. out.println("\n 使 用 元 分 类 器 ") ; 
RAttributeSelectedClassifier classifier = new 
Attributeselectedclassifier(); 

CfsSubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 
Search. setSearchBackwards (true); 

J48 base = new J48(); 

classifier.setClassifier (base); 
classifier.setEvaluator (eval); 
classifier.setSearch (search); 

Evaluation evaluation = new Evaluation (data); 
evaluation.crossValidateModel (classifier, data, 10, new Random(1234)); 
System.out.println (evaluation.tosummarystring ()); 


2. 使 用 过 滤器 


本 示例 使 用 过 滤器 进行 属性 选择 ， 完 整 代 码 如 程序 清单 7.56 所 示 。 程 序 首先 加 载 数据 
文件 并 设置 类 别 属性 ， 然 后 实例 化 weka.filters.supervised.attribute 包 的 AttributeSelection 过 
滤器 对 象 ， 该 对 象 是 用 来 选择 属性 的 有 监督 属性 过 滤器 ， 人 允许 结合 各 种 搜索 方法 和 评价 方 
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法 ， 使 用 非常 灵活 。 随 后 调用 该 对 象 的 setEvaluator 方法 设置 属性 (或 子 集 ) 的 评估 器 ， 调 用 
setSearch 方法 设置 搜索 类 (ASSearch 类 的 派生 对 象 )， 调 用 setInputFormat 方法 设置 输入 数 


据 集 的 格式 。 


最 后 调用 Filter 类 的 静态 方法 useFilter 使 用 过 滤器 过 滤 整 个 实例 集 ， 并 返回 


新 的 数据 集 。 
程序 清单 7.56 UseFilterjava 


package wekalearning.attributeSelection; 


import 
import 
import 
import 
import 
import 


weka.attributeSelection.CfsSubsetEval; 
weka.attributeSelection.GreedyStepwise; 
weka.core.Instances; 
weka.core.converters.ConverterUtils.DataSource; 
weka.filters.Filter; 
weka.filters.supervised.attribute.AttributeSelection 


* 使 用 过 滤器 


ny 
public 


class UseFilter { 


public static void main (String[] args) throws Exception { 


} 


// 加 载 数 据 
DataSource source = new DataSource ("C:/Weka-3-7/ 
data/weather.numeric.arff"); 
Instances data = source.getDataset (); 
// 设置 类 别 属性 索引 
if (data.classIndex() 一 -1) 
data.setClassIndex (data.numAttributes() - 1); 


System.out.println ("\n 使 用 过 滤器 ") ; 

Attributeselection filter = new Attributeselection(); 
CfssubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 

search. setSearchBackwards (true); 

filter.setEvaluator (eval); 

filter.setSearch (search); 

filter.setInputFormat (data); 

Instances newData = Filter.useFilter(data, filter); 
System.out.println (newData); 


3. 使 用 底层 API 


本 示例 使 用 底层 API 进行 属性 选择 ， 完 整 代码 如 程序 清单 7.57 所 示 。 程 序 首先 加 载 数 
据 文件 并 设置 类 别 属性 ， 然 后 实例 化 weka.attributeSelection.AttributeSelection 包 的 
AttributeSelection 对 象 ， 该 对 象 是 属性 选择 Java 类 ， 可 以 用 命令 行 来 获取 搜索 类 以 及 评估 


类 的 名 称 。 


随后 ， 调 用 AttributeSelection 对 象 的 setEvaluator 方法 设置 属性 ( 子 集 ) 的 评估 
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器 ， 调 用 setSearch 方法 设置 搜索 方法 ， 调 用 带 一 个 参数 (Instances 对 象 ) 的 SelectAttributes 
方法 对 所 提供 的 训练 实例 执行 属性 选择 。 最 后 ， 调 用 不 带 任何 参数 的 selectedAttributes 方 


法 获取 最 终 选 定 的 属性 集合 ， 并 打印 到 控制 台 。 
程序 清单 7.57 UseLowLeveljava 


package wekalearning.attributeSelection; 


import weka.attributeSelection.AttributeSelection; 
import weka.attributeSelection.CfsSubsetEval; 

import weka.attributeSelection.GreedyStepwise; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.core.converters.ConverterUtils.DataSource; 


/大大 

* 使 用 底层 API 

ed 
public class UseLowLevel { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
DataSource source = new DataSource ("C:/Weka-3-7/ 
data/weather.numeric.arff"); 
Instances data = source.getDataset (); 
// 设置 类 别 属性 索引 
if (data.classIndex() = -1) 
data.setClassIndex (data.numAttributes() - 1); 


System.out.println("\n 使 用 底层 API"); 
Attributeselection attsel = new Attributeselection(); 
CfsSubsetEval eval = new CfsSubsetEval (); 
GreedyStepwise search = new GreedyStepwise(); 
search. setSsearchBackwards (true); 

attsel .setEvaluator (eval); 

attsel .setsearch (search); 
attsel.SelectAttributes (data); 

int[] indices = attsel.selectedAttributes(); 
System. out.println ("选择 属性 索引 (从 0 开始) : \n" + 
Utils.arrayTostring(indices)); 


7.9 可 视 化 


由 于 可 视 化 以 非常 直观 的 方式 展现 结果 ， 便 于 发 现 隐藏 领域 的 知识 ， 以 便 快 速 排除 许 
多 无 意义 的 模式 ， 直 接 关注 到 重要 的 模式 上 ， 因 而 是 发 现 模式 的 最 佳 方式 。 
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7.9.1 ROcC 曲线 


Weka 能 够 根据 对 分 类 器 的 评估 过 程 中 收集 到 的 预测 ， 生 成 接收 者 操作 特征 (ROC) 曲 
线 。 为 了 显示 ROC 曲线 ， 需 要 执行 以 下 操作 步 又。 

第 一 步 ， 使 用 weka.classifiers.evaluation 包 的 ThresholdCurve 类 ， 根 据 Evaluation 收集 
到 的 预测 ， 生 成 可 绘制 的 数据 。 

第 二 步 ， 将 可 绘制 的 数据 放 入 一 个 绘图 容器 ， 容 器 为 weka.guivisualize 包 的 
PlotData2D 类 的 实例 。 

第 三 步 ， 将 绘图 容器 添加 至 可 视 化 面板 以 显示 数据 ， 可 视 化 面板 应 该 为 
weka.gui.visualize 包 的 ThresholdVisualizePanel 类 的 实例 。 

第 四 步 ， 将 可 视 化 面板 添加 到 javax.swing 包 的 下 rame 并 显示 。 

下 面 将 上 述 四 个 步骤 转换 为 实际 代码 。 

第 一 步 ， 生 成 可 绘制 的 数据 。 代 码 片段 如 下 : 


Evaluation eval = ... // 来 自 某 处 
Thresholdcurve tc = new ThresholdCurve(); 
int classIndex = 0; // 第 一 个 类 别 标签 的 ROC 


Instances curve = tc.getCurve (eval.predictions(), classIndex); 


第 二 步 ， 将 可 绘制 数据 放 入 绘图 容器 。 代 码 片 段 如 下 : 


PlotData2D plotdata = new PlotData2D (curve); 
plotdata. setPlotName (curve.relationName ()); 
plotdata.addIinstanceNumberAttribute(); 


第 三 步 ， 将 绘图 容器 添加 至 可 视 化 面板 。 代 码 片段 如 下 : 


ThresholdVisualizePanel tvp = new ThresholdVisualizePanel (); 
tvp.setROCString(" (Area under ROC = "+ 

Utils.doubleTostring (ThresholdCurve.getROCArea (curve) ,4)+")"); 
tvp. setName (curve. relationName ()); 
tvp.addPlot (plotdata); 


第 四 步 ， 将 可 视 化 面板 添加 到 JFrame。 代 码 片段 如 下 : 


final JFrame jf = new JFrame ("WEKA ROC: " + tvp.getName()); 
jf.setsize(500, 400); 

jf.getContentPane() .setLayout (new BorderLayout () ) 7 
jf.getContentPane() .add (tvp，BorderLayout .CENTER) 7 
jf.setDefaultCloseOperation (JFrame.DISPOSE ON _ CLOSE) 7 
jf.setVisible (true) 7 


站 .9.2 


实现 weka.core.Drawable 接口 的 类 可 以 生成 其 内 部 模式 能 够 显示 的 图 形 。 目 前 ， 有 两 
种 不 同类 型 的 图 ， 即 Tree 和 BayesNet， 前 者 为 决策 树 ， 后 者 为 贝 叶 斯 网 络 图 结构 。 

显示 weka.classifiers.trees 包 的 J48 和 MSP 分 类 器 的 内 部 树 结构 很 容易 。 程 序 清 单 7.58 
用 数据 集 构建 了 一 个 J48 分 类 器 ， 并 使 用 weka.gui.treevisualizer 包 的 TreeVisualizer 类 直观 显 
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示 所 生成 的 树 。 可 视 化 类 TreeVisualizer 可 以 用 GraphViz 的 DOT 语言 来 查看 树 (或 有 向 图 )。 


程序 清单 7.58 可视化 树 结构 代码 片段 


Instances data = ... // 数据 集 
// 训练 分 类 器 
J48 cls = new J48(); 
cls.buildclassifier (data); 
// 显示 树 
TreeVisualizer tv = new TreeVisualizer( 

null, cls.graph(), new PlaceNode2 ()) 7 
JETrame jf = new JFrame ("Weka Classifier Tree Visualizer: J48"); 
jf.setDefaultCloseOperation (JErame .DISPOSE ON CLOSE); 
jf.setsize(800, 600); 
jf.getContentPane () .setLayout (new BorderLayout ()); 
jf.getCcontentPane () .add (tv, BorderLayout .CENTER); 
jf.setVisible (true); 
// 调整 树 


tv.fitTosScreen (); 

weka.classifiers.bayes 包 的 BayesNet( 贝 叶 斯 网 络 ) 分 类 器 所 生成 的 图 可 以 使 用 
GraphVisualizer 类 (位 于 包 weka.gui.graphvisualizer 中 ) 进 行 显示 。GraphVisualizer 可 以 显示 
用 GraphViz 的 DOT 语言 或 XML BIF 格式 表示 的 图 形 。 需 要 使 用 readDOT 方法 显示 DOT 
格式 的 图 形 ， 而 使 用 readBIF 方法 显示 BIF 格式 的 图 形 。 


下 面 的 示例 用 一 些 数据 来 训练 一 个 贝 叶 斯 网 络 分 类 器 ， 然 后 显示 从 这 些 数 据 中 产生 的 
图 形 帧 。 

程序 清单 7.59 ”可视化 贝 叶 斯 网 络 代 码 片段 

Instances data = ... // 数据 集 

// 训练 分 类 器 


BayesNet cls = new BayesNet (); 
cls.buildclassifier (data); 

// 显示 图 

GraphVisualizer gv = new GraphVisualizer() 7 
gv.readBIF (cls.graph ()); 

JFErame jf = new JFrame ("BayesNet graph"); 
jf.setDefaultCloseOoperation (JFrame -DISPOSE ON CLOSE); 
jf.setsize(800, 600); 

jf.getContentPane() .setLayout (new BorderLayout ()); 
jf.getContentPane() .add (gv, BorderLayout .CENTER); 
jf.setVisible (true); 

// 布局 图 

gv.layoutGraph (); 


7.9.3 手把手 教 你 用 
1. 可 视 化 ROC 曲线 
本 示例 展示 如 何 由 数据 集 产 生 并 显示 ROC 曲线 ， 完 整 代码 见 程序 清单 7.60。 程 序 首 
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先 加载 数 据 集 文 件 ， 然 后 构建 Evaluation 对 象 ，Evaluation 类 专门 为 评估 机 器 学 习 模 型 而 设 
置 。 接 着 调用 Evaluation 对 象 的 crossValidateModel 方法 ， 该 方法 用 分 类 器 对 一 组 数据 执行 
交叉 验证 ， 其 中 ， 第 一 个 参数 为 分 类 器 对 象 ， 第 二 个 参数 为 要 进行 交叉 验证 的 数据 ， 第 三 
个 参数 为 交叉 验证 的 折 数 ， 第 四 个 参数 为 随机 数 产生 器 对 象 。 最 后 ， 按 照 前 文 所 述 的 显示 
ROC 曲线 的 四 个 步骤 ， 显 示 ROC 曲线 。 


程序 清单 7.60 VisualizeROC java 


Package wekalearning.visualize; 


import 
import 
import 
import 
import 
import 
import 
import 
import 


import 
import 


import 


/太太 


weka.classifiers.Classifier; 
weka.classifiers.Evaluation; 
weka.classifiers.bayes.NaiveBayes; 
weka.classifiers.evaluation.ThresholdCurve; 
weka.core.Instances; 

weka.core.Utils; 
weka.core.converters.ConverterUtils.DataSource; 
weka.gui.visualize.PlotData2D; 
weka.gui.visualize.ThresholdVisualizePanel; 


java.awt .BorderLayout; 
java.util .Random; 


javax. swing.JFrame; 


* 由 数据 集 产生 并 显示 ROC 曲线 ， 使 用 NaiveBayes 的 默认 设置 来 产生 ROC 数据 


wi 
public 


class VisualizeROC { 


public static void main (String[] args) throws Exception { 


// 加 载 数据 

Instances data = DataSource 
.read("C:/Weka-3-7/data/weather.nominal .arff"); 

data.setClassIndex (data.numAttributes() - 1); 


// 评估 分 类 器 

Classifier classifier = new NaiveBayes (); 

Evaluation eval = new Evaluation (data); 

eval .crossValidateModel (classifier, data, 10, new Random(1234)); 


// 第 一 步 ， 生 成 可 绘制 的 数据 

ThresholdCurve tc = new ThresholdCurve(); 

int classIndex = 0; 

Instances curve = tc.getCurve (eval.predictions(), classIndex); 


// 第 二 步 ， 将 可 绘制 数据 放 入 绘图 容器 

PlotData2D plotdata = new PlotData2D (curve); 
plotdata.setPlotName (curve.relationName ()); 
plotqdata.addInstanceNumberAttribute (); 
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// 第 三 步 ， 将 绘图 容器 添加 至 可 视 化 面板 
ThresholdVisualizePanel tvp = new ThresholdVisualizePanel (); 
tvp .setROCString(" (Area under ROC = " 
+ Utils.doubleToString(ThresholdCurve.getROCArea (curve), 4) 
sd bd 
tvp. setName (curve.relationName ()); 
// 指定 连接 哪些 点 
boolean[] cp = new boolean[curve.numInstances()]; 
for (int i = 1; i < cp.length; i++) 
cp[i] = true; 
plotdata.setConnectPoints (cp); 
// 添加 绘 | 
tvp.addPlot (plotdata); 


// 第 四 步 ， 将 可 视 化 面板 添加 到 JFrame 

final JFrame jf = new JFrame ("WEKA ROC: " + tvp.getName()); 
// 设置 窗 体 的 大 小 为 500 像素 *400 像素 

jf.setSize(500，400) 7 

// 设置 布局 管理 器 

jf.getContentPane () .setLayout (new BorderLayout () ) 
jf.getContentPane() .add (tvp，BorderLayout . CENTER) ; 

// 自动 隐藏 并 释放 该 窗 体 

jf.setDefaultCloseOperation (JErame.DISPOSE ON CLOSE) 7 
// 设置 窗 体 可 见 

jf.setVisible (true) 


} 
运行 结果 如 图 7.7 所 示 。 


图 7.7 可 视 化 ROC 曲线 运行 结果 


2. 可 视 化 树 结构 


本 示例 展示 如 何 可 视 化 决策 树 ， 完 整 代码 如 程序 清单 7.61 所 示 。 首 先 加 载 数据 集 并 构 
建 一 个 J48 分 类 器 ， 然 后 使 用 TreeVisualizer 类 显示 决策 树 。 程 序 首 先 实例 化 
TreeVisualizer 对 象 ， 该 对 象 用 于 在 Swing 中 显示 节点 结构 。 其 构造 函数 带 三 个 参数 : 第 一 
个 参数 为 TreeDisplayListener 对 象 ， 这 是 一 个 监听 器 对 象 ， 设 置 为 null 表示 不 使 用 监听 
器 ; 第 二 个 参数 为 字符 串 类 型 ， 其 中 包含 要 显示 决策 树 的 节点 表示 ， 这 里 直接 调用 决策 树 


的 graph 方法 ， 返 回 决 策 树 的 图 形 描述 字符 串 ; 第 三 个 参数 为 实现 NodePlace 接口 的 对 
象 ， 该 对 象 是 用 于 定位 节点 的 算法 ， 这 里 使 用 放置 树 节点 的 PlaceNode2 对 象 。 创 建 好 
TreeVisualizer 对 象 之 后 ， 下 一 步 就 是 将 它 分 配给 一 个 窗口 或 类 似 的 其 他 对 象 ， 这 里 调用 
JFrame 对 象 的 getContentPane 方法 返回 窗 体 的 内 容 面板 对 象 ， 然 后 调用 该 面板 对 象 的 add 
方法 添加 TreeVisualizer 对 象 ， 从 而 将 显示 组 件 与 窗 体 挂钩 。 最 后 一 步 是 将 决策 树 调整 到 
当前 所 需 的 大 小 ， 这 里 直接 调用 TreeVisualizer 对 象 的 ftToScreen 方法 来 实现 。 


程序 清单 7.61 VisualizeTree.java 


Package wekalearning.visualize; 


import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.gui.treevisualizer.PlaceNode2; 

import weka.gui.treevisualizer.TreeVisualizer; 


import java.awt .BorderLayout; 


import javax.swing.JFrame; 


/* 大 
* 训练 J48 并 可 视 化 决策 树 
汪 


public class VisualizeTree { 


public static void main (String args[]) throws Exception { 
// 构建 J48 分 类 器 
J48 cls = new J48(); 
Instances data = DataSource 
.read("C:/Weka-3-7/data/weather.nominal .arff"); 
data.setClassIndex (data.numAttributes() - 1); 
cls.buildclassifier (data); 


// 显示 树 

TreeVisualizer tv = new TreeVisualizer (null, cls.graph(), 
new PlaceNode2 ()); 

JFrame jf = new JFrame ("J48 分 类 器 树 可 视 化 器 ") ; 

jf.setDefaultCloseOperation (JErame.DISPOSE ON CLOSE); 

jf.setsize(600, 400); 

jf.getContentPane() .setLayout (new BorderLayout ()); 

jf.getContentPane() .add (tv, BorderLayout .CENTER); 

jf.setVisible (true); 


// 调整 树 


tv.fitTosScreen (); 


1 
运行 程序 后 ， 直 接 显示 如 图 7.8 所 示 的 决策 树 窗 体 。 
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7.8 可 视 化 树 运行 结果 


3. 可 视 化 贝 叶 斯 网 络 


本 示例 展示 如 何 可 视 化 贝 叶 斯 网 络 ， 完 整 代码 如 程序 清单 7.62 所 示 。 程 序 首先 构建 一 
个 BayesNet 分 类 器 ， 然 后 使 用 GraphVisualizer 类 显示 贝 叶 斯 网 络 图 形 ， 该 类 显示 想 要 可 
视 化 的 图 形 。 显 示 贝 叶 斯 网 络 大 致 可 分 为 如 下 四 步 : 第 一 步 ， 实 例 化 GraphVisualizer 对 
象 ; 第 二 步 ， 调 用 GraphVisualizer 对 象 的 readBIF 方法 读 取 图 形 的 字符 串 描述 ， 这 里 的 格 
式 为 XMLBIF03 ， 如 果 是 DOT 格式 ， 则 需要 调用 readDOT 方法 ; 第 三 步 ， 将 
GraphVisualizer 对 象 分 配给 一 个 窗口 或 类 似 的 其 他 对 象 ， 方 法 类 似 于 前 一 个 示例 ， 第 四 
步 ， 布 局 图 形 ， 这 里 直接 调用 GraphVisualizer 对 象 的 layoutGraph 方法 实现 布局 。 


程序 清单 7.62 ”VisualizeBayesNetjava 
Package wekalearning.visualize; 


import weka.classifiers.bayes.BayesNet; 

import weka.core.Instances; 

import weka.core.converters.ConverterUtils.DataSource; 
import weka.gui.graphvisualizer.GraphVisualizer; 


import java.awt.BorderLayout; 
import javax.swing.JFrame; 


太太 
* 显示 训练 好 的 贝 叶 斯 网 络 图 形 
人 


public class VisualizeBayesNet { 


public static void main (String args[]) throws Exception { 
// 贝 叶 斯 网 络 分 类 器 
BayesNet cls = new BayesNet () 7 
// 数据 集 
Instances data = DataSource.read("cC:/Weka-3-7/data/weather.nominal .arff"); 
// 设置 类 别 属性 
data.setClassIndex (data.numAttributes() - 1) 7 
// 构建 分 类 器 


cls.buildclassifier (data); 


// 显示 图 形 
// 图 可 视 化 器 


GraphVisualizer gv = new GraphVisualizer(); 

gv.readBIF (cls.graph ()); 

// 定义 一 个 窗 体 对象 j]frame， 窗 体 名 称 为 “ 贝 叶 斯 网 络 图 形 ” 

JFrame jframe = new JFrame (" 贝 叶 斯 网 络 图 形 ") ; 
jframe.setDefaultCloseOperation (JUFrame.DISPOSE ON CLOSE) 7 
// 设置 窗 体 的 大 小 为 500 像素 *300 像素 

jframe.setsize(500, 300); 

jframe .getContentPane (). setLayout (new BorderLayout () ) 7 
jframe .getContentPane () .add(gv，BorderLayout .CENTER) 7 
// 设置 窗 体 可 见 

jframe.setVisible (true) 


// 布局 图 形 
gv.layoutGraph (); 
} 
} 


运行 程序 ， 显 示 如 图 7.9 所 示 的 贝 叶 斯 网 络 窗 体 。 


7.9 可 视 化 贝 叶 斯 网 络 运行 结果 


7.10 序 列 化 


序列 化 是 将 一 个 对 象 保存 为 一 种 持久 形式 (如 在 硬盘 上 的 一 个 字 节 流 ) 的 过 程 。 反 序列 
化 是 相反 的 过 程 ， 是 从 持久 化 的 数据 结构 中 创建 一 个 对 象 。 在 Java 中 ， 一 个 对 象 如 果实 现 
了 java.io.Serializable 接口 ， 则 可 以 序列 化 。 如 果 序 列 化 对 象 的 某 个 成 员 用 不 着 序列 化 ， 则 
需要 用 transient 关键 字 进行 声明 。 

以 下 是 一 些 对 J48 分 类 器 序列 化 和 反 序 列 化 的 Java 代码 片段 。 当 然 ， 序 列 化 并 不 限于 
分 类 器 ， 大 多 数 Weka 的 学 习 方 案 ， 如 聚 类 器 和 过 滤器 都 是 可 序列 化 的 。 


7.10.1 序列 化 基本 方法 


借助 于 weka.core.SerializationHelper 类 ， 很 容易 将 对 象 序列 化 。 用 户 可 以 使 用 某 个 
write 方法 来 进行 保存 操作 。 代 码 片段 见 程序 清单 7.63。 


程序 清单 7.63 序列 化 模型 代码 片段 


// 加 载 数据 

Instances inst = DataSource.read("/dir/data.arff"); 
inst.setClassIndex (inst .numAttributes() - 1); 

// 训练 J48 


Classifier cls = new J48(); 
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cls.buildclassifier (inst); 
// 序列 化 模型 
SerializationHelper.write("/dir/j48.model", cls); 


可 以 通过 使 用 某 个 read 方法 来 实现 反 序列 化 对 象 。 代 码 片段 见 程序 清单 7.64。 


程序 清单 7.64 反 序 列 化 模型 代码 片段 
// 反 序 列 化 模型 


Classifier cls = (Classifier) SerializationHelper.read( 
"/dir/j48.model"); 


探索 者 界面 不 仅 将 所 构建 的 分 类 器 保存 在 模型 文件 中 ， 还 保存 构建 分 类 器 所 使 用 的 数 


据 集 的 头 信息 。 通 过 存储 的 数据 集 信息 ， 用 户 可 以 很 容易 地 检查 是 否 可 以 将 序列 化 的 分 类 
器 应 用 到 当前 数据 集中 。 读 取 这 类 模型 文件 需要 调用 readAll 方法 ， 它 返回 一 个 数组 ， 所 
有 的 对 象 都 包含 在 模型 文件 中 。 其 中 ， 数 组 的 第 0 个 单元 存放 序列 化 的 分 类 器 对 象 ， 第 1 
个 单元 存放 数据 集 的 头 信息 ， 一 般 强 制 转换 为 所 需 类 型 。 代 码 片段 见 程序 清单 7.65。 


程序 清单 7.65 检查 数据 是 否 兼容 代码 片段 


// 用 于 分 类 器 的 当前 数据 
Instances current = ... // 数据 集 
// 反 序列 化 模型 
Object o[] = SerializationHelper.readAll ("/dir/j48.model"); 
Classifier cls = (Classifier) o[0]; 
Instances data = (Instances) o[1]; 
// 数据 兼容 
if (!data.equalHeaders (current)) 
throw new Exception ("数据 不 兼容 ! ") ; 


如 果 除 分 类 器 外 还 要 序列 化 数据 集 的 头 信息 ， 就 像 探索 者 界面 所 做 的 那样 ， 可 以 使 用 


某 个 writeAll 方法 。 代 码 片段 见 程序 清单 7.66。 


程序 清单 7.66 序列 化 数据 集 及 头 信息 代码 片段 
// 加 载 数 据 


Instances inst = DataSource.read("/dir/data.arff"); 
inst.setClassIndex (inst .numAttributes() — 1); 
// 训练 J48 
Classifier cls = new J48(); 
cls.buildclassifier (inst); 
// 序列 化 分 类 器 及 头 信息 
Instances header = new Instances (inst, 0); 
SerializationHelper.writeAll( 
"/dir/j48.model", new Object[]{cls, header}); 


7.10.2 手把手 教 你 


1. 模型 序列 化 
本 示例 展示 如 何 对 模型 进行 序列 化 和 反 序 列 化 。 首 先 加 载 训练 数据 ， 然 后 使 用 训练 数 


据 来 训练 J48 分 类 器 ， 并 将 训练 好 的 分 类 器 模型 序列 化 到 磁盘 文件 ， 接 着 将 磁盘 文件 反 序 
列 化 为 分 类 器 对 象 ， 最 后 打印 得 到 的 模型 。 完 整 代 码 见 程序 清单 7.67。 代 码 用 到 的 核心 
Java 类 为 SerializationHelper， 该 辅助 类 检查 待 序列 化 的 Java 类 是 否 已 经 包含 或 者 需要 一 个 
serialVersionUID， 还 可 用 于 序列 化 和 反 序 列 化 对 象 到 文件 或 者 流 。 本 例 调用 write 方法 进 
行 序列 化 ， 调 用 read 方法 进行 反 序 列 化 。 


程序 清单 7.67 ModelSerialization .java 


Package wekalearning.serialization; 


import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.SerializationHelper; 

import weka.core.converters.ConverterUtils.DataSource; 


太太 

* 模型 序列 化 和 反 序列 化 示例 

Sf 

Ppublic class ModelSerialization { 


public static void main (String[] args) throws Exception { 
// 加 载 数据 
Instances inst = DataSource 

.read("C:/Weka-3-7/data/weather.numeric.arff"); 

inst.setClassIndex (inst.numAttributes() - 1); 
// 训练 J48 
Classifier cls = new J48(); 
cls.buildclassifier (inst); 
// 序列 化 模型 
SerializationHelper.write("C:/Weka-3-7/data/j48.model", cls); 
System. out.println ("序列 化 模型 成 功 ! \n"); 


// 反 序列 化 模型 

Classifier cls2 = (Classifier) SerializationHelper 
.read("C:/Weka-3-7/data/j48.model"); 

System. out.println (" 反 序列 化 模型 成 功 ! ") ; 

System. out.println(" 反 序列 化 模型 如 下 : ") ; 

System.out.println(cls2); 


} 


2. 头 信息 序列 化 

本 示例 展示 如 何 对 模型 进行 序列 化 和 反 序 列 化 。 与 上 一 个 示例 不 同 的 是 ， 本 例 将 训练 
好 的 模型 和 头 信息 一 起 序列 化 ， 这 样 就 和 探索 者 界面 的 保存 功能 一 致 。 在 反 序 列 化 时 ， 也 
要 相应 地 将 分 类 器 模型 和 头 信息 分 开 ， 这 样 能 够 检查 模型 与 测试 集 格 式 是 否 兼容 。 完 整 代 
码 见 程序 清单 7.68。 代 码 还 是 使 用 SerializationHelper 类 ， 但 不 同 于 前 例 所 使 用 的 write 方 
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法 和 read 方法 ， 本 例 调用 writeAll 方法 进行 序列 化 ， 调 用 readAll 方法 进行 反 序列 化 ， 不 
同 点 在 于 后 面 的 两 个 方法 能 够 分 别 序列 化 或 反 序列 化 多 个 对 象 。 


程序 清单 7.68 HeaderSerialization java 


Package wekalearning.serialization; 


import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.core.Instances; 

import weka.core.SerializationHelper; 

import weka.core.converters.ConverterUtils.DataSource; 


/** 
* 分 类 器 及 头 信息 序列 化 和 反 序列 化 示例 
public class HeaderSerialization { 


Public static void main (String[] args) throws Exception { 
// 加 载 训练 集 
Instances train = DataSource 
.read("C:/Weka-3-7/data/segment-challenge.arff"); 
train.setClassIndex (train.numAttributes() - 1); 
// 训练 J48 
Classifier cls = new J48(); 
cls.buildclassifier (train); 
// 序列 化 分 类 器 及 头 信息 
Instances header = new Instances (train, 0); 
SerializationHelper.writeAll("C:/Weka-3-7/data/j48.model", 
new Object[] { cls, header }); 
System. out.println ("序列 化 分 类 器 及 头 信息 成 功 ! \n"); 


// 加 载 测试 集 
Instances test = DataSource 
.read("C:/Weka-3-7/data/segment-test.arff"); 
test.setCclassIndex (test .numAttributes() - 1); 
// 反 序列 化 模型 
Object o[] = SerializationHelper.readAll("C:/Weka-3-7/data/j48.model"); 
Classifier cls2 = (Classifier) o[0]; 
Instances data = (Instances) o[1]; 
// 模型 与 测试 集 是 否 兼容 
if (!data.equalHeaders (test) ) 
throw new Exception (" 数 据 不 兼容 ! ") ; 
System. out.println(" 反 序列 化 分 类 器 及 头 信息 成 功 ! ") ; 
System. out.println(" 反 序列 化 模型 如 下 : ") ; 
System.out.println (cls2); 


7.11 文本 分 类 综合 示例 


本 节 以 一 个 简单 的 文本 分 类 应 用 示例 作为 本 章 学 习 的 结束 ， 程 序 使 用 决策 树 分 类 器 
J48。 文 本 文件 分 为 两 个 类 别 : hit( 命 中 ) 和 miss( 未 命中 )。 用 户 提供 一 个 选项 指明 文本 语言 
是 中 文 还 是 英文 : 对 于 中 文 ， 需 要 对 文本 内 容 进行 分 词 处 理 ， 对 于 英文 ， 由 于 本 身 就 使 用 
空格 ， 因 此 不 需要 分 词 。 然 后 再 使 用 StringToWordVector 过 滤器 将 文本 信息 转化 为 单词 的 
向 量 形式 。 每 次 处 理 一 个 文本 文件 需要 调用 一 次 程序 ， 如 果 用 户 为 文本 文件 提供 类 别 标 
签 ， 程 序 就 使 用 该 文件 作为 训练 使 用 ， 否 则 ， 程 序 就 对 文本 文件 进行 分 类 。 

源 程序 根据 WekaWiki 提供 的 源 代码 进行 改写 ， 原 始 源 代码 说 明 请 参见 网 址 
http://weka.wikispaces.com/MessageClassifier。 修 改 内 容 包 括 : 使 用 java.util.ArrayList 蔡 换 
了 原始 源 代码 中 已 弃 用 的 FastVector 类 ， 添 加 了 对 中 文 分 词 的 支持 ， 并 将 全 部 注释 和 信息 
提示 改 为 中 文 。 


司 注意 : ”这 只 是 一 个 展示 如 何 对 文本 分 类 问题 进行 处 理 的 小 示例 ， 运 行 效率 不 高 ， 并 
不 建议 在 实战 项 目 中 使 用 。 建 议 在 真实 应 用 中 使 用 预 处 理 进行 分 词 处 理 ， 并 
构建 ARFF 格式 的 训练 集 和 测试 集 ， 然 后 在 Weka 探索 者 界面 和 其 他 图 形 界 
面 中 进行 训练 和 测试 ， 这 样 才能 得 到 全 面 的 测试 统计 信息 。 


7.11.1 程序 运行 准备 


本 例 使 用 Eclipse IDE 进行 开发 。 

程序 使 用 的 中 文 分 词 器 是 工 Analyzer 中 文 分 词 器 V2012_U6， 因 此 需要 在 Java Build 
Path 中 包含 代 Analyzer2012_u6.jjar 文件 ， 由 于 区 Analyzer 依赖 于 Lucene， 因 此 还 需要 包 
含 lucene-core-3.6.2.jar 文件 ， 最 后 必须 包含 weka.jar 文件 ， 如 图 7.10 所 示 。 


7.10 项 目 所 需 Java 库 


IKAnalyzer 中 文 分 词 器 还 要 求 配置 文件 ， 因 此 需要 将 民 Analyzer.cfg.xml 文件 和 
stopword.dic 文件 复制 到 Java 项 目的 src 根 目录 下 ， 前 者 为 分 词 器 扩展 配置 文件 ， 后 者 为 停 
用 词 词典 (停止 词典 )， 该 词典 可 以 使 用 同行 提炼 好 的 停 用 词 ， 也 可 以 自 定 义 。Java 项 目下 
还 需要 放置 若干 训练 文本 文件 和 待 分 类 的 测试 文本 文件 ， 本 书 使 用 复旦 大 学 李 荣 陆 提供 的 
文本 分 类 语料库 测试 语 料 ， 下 载 网 址 为 http://www.nlpir.org/?action-viewnews-itemid-103。 
在 语料库 中 选取 有 关 教育 和 历史 各 五 篇 材料 ， 并 手工 去 掉 材 料 中 的 无 关 信息 ， 例 如 ， 去 掉 
了 文献 来 源 等 头 信息 ， 还 有 材料 尾部 的 本 文责 任 编辑 以 及 个 人 签名 等 与 分 类 无 关 的 信 
息 ， 如 图 7.11 所 示 。 
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图 7.11 各 种 文件 
当然 ， 项 目 中 还 应 该 包含 最 为 重要 的 文本 分 类 Java 源 文件 ， 其 内 容 将 在 下 一 节 讲述 。 


7.11.2 源 程 序 分 析 


文本 分 类 应 用 程序 源 代码 如 程序 清单 7.69 所 示 ， 实 现 分 类 功能 的 Java 类 名 为 
MessageClassifier。 主 函数 main() 能 接受 的 命令 行 参数 有 四 个 ，-E 选项 指定 文本 是 否 为 英 
文 (默认 省 略 ， 为 中 文 )，-m 选项 指定 待 处 理 的 文本 文件 名 称 ，-t 选项 指定 序列 化 
MessageClassifier 对 象 的 模型 文件 ， 可 选 的 -c 选项 指定 文本 文件 的 类 别 标签 。 如 果 用 户 提 
供 类 别 标签 ， 文 本 将 作为 训练 样本 处 理 ， 否 则 ， 正 在 运行 的 MessageClassifier 对 象 将 对 文 
本 进行 分 类 ， 分 类 为 hit 或 miss 两 个 类 别 。 

main() 方 法 将 文本 文件 内 容 读 入 到 Java 的 StringBuffer 对 象 中 ， 然 后 检查 文本 是 否 为 
英文 ， 如 果 不 是 英文 则 需要 进行 分 词 处 理 ， 否 则 不 分 词 。 下 一 步 检 查 用 户 是 否 提供 了 类 别 
标签 ， 然 后 从 -t 选项 指定 的 序列 化 文件 中 将 对 象 反 序列 化 到 MessageClassifier 对 象 中 ， 如 
果 不 存 在 序列 化 文件 ， 则 创建 一 个 MessageClassifier 类 的 新 对 象 。 不 管 是 上 述 情况 的 哪 一 
种 ， 结 果 对 象 都 称 为 messageCl。 检 查 命令 行 选项 之 后 ， 如 果 用 户 提供 类 别 标签 ， 程 序 会 
调用 updateData(0) 方 法 更 新 存储 在 messageCl 中 的 训练 数据 ;和 否则 ， 程 序 会 调用 
classifyMessage() 方 法 对 文本 进行 分 类 。 最 后 ， 由 于 messageCl 对 象 可 能 已 经 改变 ， 因 此 将 
该 对 象 保存 回 序列 化 文件 。 


程序 清单 7.69 ”MessageClassifierjava 完整 程序 


素 友 太 
* 将 简短 的 文本 信息 分 类 为 两 个 类 别 的 Java 程序 
sp 


import weka.core.Attribute; 

import weka.core.DenseInstance; 
import weka.core.Instance; 

import weka.core.Instances; 

import weka.core.Utils; 

import weka.classifiers.Classifier; 
import weka.classifiers.trees.J48; 
import weka.filters.Filter; 


import 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


import 
import 
import 
import 


weka . 


Jjava 
Jjava . 
java. 
java. 
java. 
java. 
java. 
java. 
java. 
java. 
java. 


filters.unsupervised.attribute.SstringToWordVector; 


io. 
Oe 


io 


io 
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io 


FileInputstream; 
FileNotFoundException; 


.FileOutputstream; 
1D 


FileReader; 


.ObjectInputstream; 
io. 


ObjectoutputSstream; 
Reader; 


.Serializable; 
io， 


StringReader; 


util.ArrayList; 
util.List; 


org.apache.1lucene.analysis.Analyzer; 

org.apache.1lucene.analysis.TokenSstream; 
org.apache.1lucene.analysis.tokenattributes.CharTermAttribute; 
org.wltea.analyzer.1lucene.IKAnalyzer; 


public class MessageClassifier implements Serializable { 


Private static final long serialVersionUID = -6705084686587638940L; 


/* 迄今 收集 到 的 训练 数据 */ 


Private Instances m Data = null; 


/* 用 于 生成 单词 计数 的 过 滤器 */ 


Private StringToWordVector m Filter = new StringToWordVector(); 


/* 实际 的 分 类 器 */ 


Private Classifier m Classifier = new J48(); 


/* 模型 是 否 为 最 新 */ 
Private boolean m UpToDate; 


/** 
* 构建 空 训练 集 


public MessageClassifier() throws Exception { 


String nameOfDataset = "MessageClassificationProblem"; 


// 创建 的 属性 列表 


List<Attribute> attributes = new ArrayList<Attribute>(); 


// 添加 属性 以 保存 文本 信息 


attributes.add (new Attribute ("Message", 


// 添加 类 别 属性 
List<String> classValues = new ArrayList<Sstring>(); 
classValues.add ("miss"); 


(List<String>) null)); 
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classValues.add ("hit"); 
attributes.add (new Attribute ("Class", classValues)); 


// 创建 初始 容量 为 100 的 数据 集 
m Data = new Instances (nameOfDataset, (ArrayList<Attribute>) attributes, 100); 


7/ 设置 类 别 索引 
m_Data.setClassIndex (m Data.numAttributes() - 1); 


} 


/**# 

* 使 用 给 定 的 训练 文本 信息 更 新 模型 

bd 

public void updateData (String message, String classValue) throws Exception { 


// 把 文本 信息 转换 为 实例 


Instance instance = makeInstance (message, m Data); 


// 为 实例 设置 类 别 值 


instance.setClassValue (classValue); 


// 添加 实例 到 训练 数据 
m Data.add (instance); 
m UpToDate = false; 


// 输出 提示 信息 
System.err.println ("更 新 模型 成 功 ! ") ; 
} 


/太太 

* 分 类 给 定 的 文本 消息 

本 下 

public void classifyMessage (String message) throws Exception { 


// 检查 是 否 已 构建 分 类 器 
if (m Data.numInstances() 一 0) { 

throw new Exception (" 没 有 分 类 器 可 用 。") ; 
} 


// 检查 分 类 器 和 过 滤器 是 否 为 最 新 
if (!m UpToDate) { 


// 初始 化 过 滤器 ， 并 告知 输入 格式 
m Filter.setInputFormat (m Data); 


// 从 训练 数据 生成 单词 计数 


Instances filteredData = Filter.useFilter(m Data, m Filter); 


// 重建 分 类 器 
m Classifier.buildclassifier (filteredData); 
m UpToDate = true; 


// 形成 单独 的 小 测试 集 ， 所 以 该 文本 信息 不 会 添加 到 m_Data 的 字符 串 型 属性 中 


Instances testset = m_Data.stringFreeStructure () 


// 使 文本 信息 成 为 测试 实例 


Instance instance = makeInstance (message, testset); 


// 过 滤 实 例 
m Filter.input (instance); 
Instance filteredInstance = m Filter.output (); 


// 获取 预测 类 别 值 的 索引 


double predicted = m Classifier.classifyInstance (filteredInstance)7 


// 输出 类 别 值 
System. err.println ("文本 信息 分 类 为 : " 
+ m Data.classAttribute() .value ( (int) predicted)); 


/** 

* 将 文本 信息 转换 为 实例 的 方法 

wd 

Private Instance makeInstance (String text, Instances data) { 


} 


// 创建 一 个 属性 数量 为 2， 权 重 为 1， 全 部 值 都 为 缺失 的 实例 


Instance instance = new DenseInstance (2); 


// 设置 文本 信息 属性 的 值 
Attribute messageAtt = data.attribute ("Message"); 
instance.setValue (messageAtt, messageAtt.addstringValue (text)); 


// 让 实例 能 够 访问 数据 集中 的 属性 信息 
instance.setDataset (data); 
return instance; 


/太太 
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主 方法 

可 以 识别 下 列 参数 : 

-E 

文本 是 否 为 英文 。 默 认为 中 文 ， 省 略 该 参数 

-m 文本 信息 文件 

指向 一 个 文件 ， 其 中 包含 待 分 类 的 文本 信息 ， 或 用 于 更 新 模型 的 文本 信息 
-Cc 类 别 标签 


如 果 要 更 新 模型 ， 使 用 本 参数 输入 文本 信息 的 类 别 标签 。 省 略 表示 需要 对 文本 信息 进行 分 类 


- 模型 文件 
包含 模型 的 文件 。 如 果 不 存在 该 文件 ， 就 会 自动 创建 


@param args 命令 行 选项 


wy 
public static void main(string[] options) { 
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// 读 入 文本 信息 文件 ， 存 储 为 字符 串 
String messageName = Utils.getOption("'m', options); 
if (messageName.length() 一 0) { 
throw new Exception ("必须 提供 文本 信息 文件 的 名 称 。") ; 
} 
FileReader m = new FileReader (messageName); 
StringBuffer message = new StringBuffer(); 
int 1; 
while ((1 = m.read()) != -1) { 
message.append ( (char) 1); 
} 
m.close(); 


// 检查 文本 是 否 为 英文 
boolean isEnglish = Utils.getFlag('E', options); 
if(! isEnglish) { 
// 只 有 汉字 需要 进行 中 文 分 词 
Analyzer ikAnalyzer = new IKAnalyzer(); 
Reader reader = new StringReader (message.tostring()); 
TokenStream stream = (TokenStream) ikAnalyzer.tokenStream("", reader); 
CharTermAttribute termAtt = (CharTermAttribute) stream.addAttribute 
(CharTermAttribute.class); 
message = new StringBuffer(); 
while (stream.incrementToken () ){ 
message.append (termAtt .tostring() + " "); 


} 


// 检查 是 否 已 给 定 类 别 值 


String classValue = Utils.getoption('c', options); 


// 如 果 模 型 文件 存在 ， 则 读 入 ， 否 则 创建 新 的 模型 文件 
String modelName = Utils.getOoption('t', options); 
if (modelName.length() = 0) { 
throw new Exception ("必须 提供 模型 文件 的 名 称 。") ; 
} 
MessageClassifier messageCcl; 
try { 
ObjectInputstream modelInObjectFile = new ObjectInputStream( 
new FileInputSstream(modelName)); 
messageCl = (MessageClassifier) modelInobjectFile.readobject (); 
modelInOobjectFile.close(); 
} catch (FileNotFoundException e) { 
messageCl = new MessageClassifier(); 
} 


// 处 理 文本 信息 
ifE (classValue.length() != 0) { 


messageCl .updateData (message.tostring(), classValue); 
} else { 
messageCl .classifyMessage (message.tostring ()); 


// 保存 文本 信息 分 类 器 对 象 
ObjectoutputStream modelOutObjectFile = new ObjectoutputStream( 
new FileOutputstream (modelName) ) 
modeloutobjectFile.writeObject (messageC1l) 
modelOutObjectFile.close(); 
} catch (Exception e) { 
e.printstackTrace (); 
} 
} 
} 
下 面 首先 介绍 构造 函数 MessageClassifier() 如 何 创建 新 的 MessageClassifier 对 象 ， 然 后 


解释 updateData() 方 法 和 classifyMessage() 方 法 是 如 何 工作 的 。 
1. MessageClassifier() 方 法 


每 次 当 创建 一 个 新 的 MessageClassifier 对 象 时 ， 会 自动 生成 用 于 保持 过 滤器 和 分 类 器 
的 对 象 。 过 程 中 的 重要 部 分 是 创建 数据 集 ， 这 由 构造 函数 MessageClassifier0 完 成 。 首 先 ， 
将 数据 集 的 名 称 存 储 为 字符 串 ， 然 后 为 每 个 属性 创建 Attribute 对 象 。 文 本 分 类 数据 集 有 两 
个 属性 ， 因 此 需要 创建 两 个 Attribute 对 象 : 一 个 Attribute 对 象 容纳 对 应 文本 信息 的 字符 
串 ， 另 一 个 Attribute 对 象 容纳 文本 信息 的 类 别 。 这 些 对 象 存储 为 Java 的 List 类 型 。 

下 面 通过 调用 Attribute 类 的 构造 函数 来 创建 属性 。 该 类 有 一 个 构造 函数 只 需要 一 个 参数 
一 一 属性 名 称 ， 功 能 是 创建 一 个 数值 型 属性 。 但 是 这 里 使 用 的 构造 函数 带 两 个 参数 : 属性 
名 称 和 List<String> 类 型 的 引用 。 如 果 该 引用 为 空 即 nulD)， 正 如 在 我 们 程序 中 的 构造 函数 
那样 ，Weka 会 创建 一 个 字符 串 类 型 的 属性 ;和 否则 ， 会 创建 一 个 标 称 型 属性 。 在 构造 函数 
带 两 个 参数 的 情况 下 ，Weka 假设 List<String> 保 持 的 属性 值 为 字符 串 。 然 后 ， 通 过 将 属性 
名 称 (class) 和 值 作为 Attribute 类 的 构造 函数 参数 ， 即 new Attribute("Class", classValues)， 创 
建 一 个 有 hit 和 miss 两 个 值 的 类 别 属 性 。 


3 注意 ;本 书 弃 用 了 已 经 宣布 不 再 受 支持 的 FastVector 类 。 


为 了 根据 上 述 属性 信息 来 创建 数据 集 ，MessageClassifier0 必 须 创 建 一 个 Weka 核心 包 
中 Instances 类 的 对 象 。 程 序 中 的 Instances 构造 函数 带 三 个 参数 : 数据 集 名 称 、 
ArrayList<Attribute> 类 型 的 属性 ， 以 及 一 个 表示 数据 集 初 始 容 量 的 整数 。 这 里 的 初始 容量 
设置 为 100， 如 果 添 加 更 多 的 实例 ， 容 量 会 自动 扩展 。 构 建 好 数据 集 之 后 ， 
MessageClassifier() 设 置 类 别 属性 的 索引 ， 指 向 最 后 一 个 属性 。 


2. updateData() 方 法 


既然 已 经 知道 如 何 创建 一 个 空 数据 集 ， 现 在 考虑 MessageClassifier 对 象 到 底 该 如 何 整 
合 新 的 训练 样本 人 信息。 程序 中 由 updateData0 方 法 完成 这 个 工作 ， 它 首先 调用 
makeInstance() 方 法 将 给 定 的 文本 信息 转换 为 训练 实例 。makeInstance() 方 法 首先 创建 一 个 带 
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两 个 属性 的 Instance 对 象 。 注 意 ， 这 里 的 Instance 为 接口 ， 不 能 直接 实例 化 ， 只 能 实例 化 
该 接口 的 实现 类 。 由 于 应 用 只 需要 两 个 属性 且 不 稀疏 ， 因 此 ， 使 用 DenseInstance 类 ， 而 不 
使 用 SparseInstance 类 。 所 使 用 的 DenseInstance 对 象 的 构造 函数 只 带 一 个 参数 2， 表 明 要 
创建 一 个 属性 数量 为 2 且 权 重 为 1 的 实例 ， 并 将 实例 的 全 部 值 设置 为 缺失 。makeInstance() 
的 下 一 步 是 设置 字符 串 型 的 属性 值 以 容纳 文本 信息 ， 这 是 通过 调用 Instance 对 象 的 
setValue() 方 法 实现 的 。 这 里 的 setValue() 方 法 带 两 个 参数 : 第 一 个 参数 为 需要 更 改 其 值 的 
Attribute 对 象 ， 第 二 个 参数 为 对 应 于 字符 串 型 属性 定义 中 新 值 的 索引 ， 该 索引 由 调用 
addStringValue() 方 法 返回 。addStringValue() 方 法 在 字符 串 型 属性 中 添加 了 文本 信息 作为 新 
值 ， 并 返回 字符 串 型 属性 定义 中 该 新 值 的 位 置 ( 即 索引 )。 

在 内 部 无 论 对 应 的 属性 类 型 是 哪 一 种 ，Instance 对 象 都 将 所 有 的 属性 值 存储 为 双 精 度 
浮 点 数 。 标 称 型 及 字符 串 型 属性 通过 存储 属性 定义 中 对 应 的 属性 值 的 索引 来 存储 属性 值 。 
例如 ， 标 称 型 属性 的 第 一 个 值 表示 为 0.0， 第 二 个 值 表示 为 1.0， 以 此 类 推 。 字 符 串 型 属性 
使 用 相同 的 方法 。addStringValue() 方 法 返回 的 是 添加 到 属性 定义 中 的 值 所 对 应 的 索引 。 

一 且 设 定 了 字符 串 型 属性 的 值 ，makeInstance0 方 法 通过 调用 Instance 对 象 的 
setDataset() 方 法 ， 为 新 创建 的 实例 访问 数据 属性 信息 传递 一 个 数据 集 的 引用 。 在 Weka 
中 ，Instance 对 象 不 存储 每 个 属性 的 类 型 ， 而 是 存储 数据 集 的 引用 ， 从 数据 集 可 以 检索 到 相 
应 的 属性 信息 。 

返回 来 看 updateData() 方 法 ， 新 的 实例 从 makelInstance0) 返 回 后 ， 在 这 里 设置 实例 类 别 
值 ， 并 且 将 实例 添加 到 训练 数据 中 。 最 后 将 m_UpToDate 的 状态 设 为 false， 该 标志 表明 训 
练 数 据 已 发 生变 化 ， 预 测 模型 需要 更 新 。 


3. classifyMessage() 方 法 


现在 来 分 析 MessageClassifier 是 如 何 处 理 未 知 类 别 标 签 的 文本 信息 的 。 
classifyMessage() 方 法 首先 通过 检查 是 否 有 可 用 的 训练 实例 ， 来 确定 是 否 已 经 构建 了 分 类 
器 ， 然 后 检查 分 类 器 的 状态 是 否 为 最 新 。 如 果 因 为 训练 数据 已 经 改变 而 使 分 类 器 的 状态 不 
是 最 新 ， 则 必须 重建 分 类 器 。 然 而 ， 在 这 样 做 之 前 ， 必 须 使 用 StringToWordVector 过 滤器 
将 数据 转换 成 适合 于 学 习 的 格式 。 首 先 调 用 setmputFormatO0， 通 过 将 输入 数据 集 的 引用 传 
递 给 过 滤器 ， 告 诉 过 滤器 输入 数据 的 格式 。 每 次 调用 该 方法 时 会 初始 化 过 滤器 ， 即 复位 其 
内 部 的 设置 。 下 一 步 ， 调 用 useFilter() 方 法 转换 数据 ，Filter 类 的 useFilter0 方 法 将 过 滤器 应 
用 到 数据 集 。 此 时 ， 因 为 StringToWordVector 已 经 初始 化 ， 它 通过 训练 数据 集 计 算出 字 
典 ， 然 后 将 它 形成 一 个 单词 向 量 。 从 useFilter() 方 法 返回 后 ， 直 到 再 次 调用 inputFormat() 方 
法 进行 初始 化 之 前 ， 过 滤器 的 所 有 内 部 设置 都 是 固定 的 。 这 使 得 它 可 以 在 不 更 新 过 滤器 的 
内 部 设置 的 情况 下 过 滤 测 试 实例 ， 这 里 的 内 部 设置 是 指 字典 。 

过 滤 数 据 之 后 ， 程 序 通过 将 过 滤 后 的 训练 数据 作为 参数 ， 传 递 给 buildClassifier() 方 法 
重建 分 类 器 (例子 中 为 J48 决策 树 )， 然 后 将 m_UpToDate 设置 为 tue。buildClassifier() 方 法 
必须 先 完全 初始 化 模型 的 内 部 设置 ， 然 后 再 生成 新 的 分 类 器 ， 这 是 Weka 的 一 个 重要 的 约 
定 ， 详 细 内 容 可 参见 第 8 章 。 因 此 ， 在 调用 buildClassifier(0 方 法 之 前 ， 并 不 需要 构建 新 的 
J48 分 类 器 对 象 。 

确保 存储 在 m_Classifier 中 的 模型 是 最 新 的 之 后 ， 对 文本 信息 进行 分 类 。 在 调用 
ImakeImstance() 方 法 创建 mstance 对 象 之 前 ， 会 创建 一 个 新 的 Instances 对 象 来 存放 新 实例 ， 
然后 再 将 该 Instances 对 象 作为 测试 集 参 数 传递 给 makeInstance() 方 法 。 这 样 做 之 后 ， 


makeInstance() 方 法 就 不 会 将 文本 信息 添加 到 m_Data 中 的 字符 串 型 属性 定义 中 。 否 则 ， 每 
次 要 对 一 个 新 的 文本 信息 进行 分 类 的 时 候 ，m_Data 对 象 的 大 小 都 会 增长 ， 这 显然 是 不 合理 
的 ，m_Data 对 象 应 该 只 在 添加 训练 实例 时 才 增 长 。 因 此 ， 程 序 创建 了 一 个 临时 的 Instances 
对 象 ， 一旦 实例 处 理 完毕 便 可 丢弃 该 临时 对 象 。 使 用 stringFreeStructure() 方法 获得 该 对 
象 ， 它 返回 一 个 m Data 副本 ， 其 中 的 字符 串 型 属性 为 空 。 只 有 这 样 ， 所 调用 的 
makeInstance() 方 法 才 创建 好 了 新 的 实例 。 

在 对 测试 实例 进行 分 类 之 前 ， 还 必须 先 由 StringToWordVector 过 滤器 进行 过 滤 处 理 。 
调用 input0 方 法 将 实例 输入 到 过 滤器 对 象 ， 再 调用 output0 方 法 获取 转换 后 的 实例 。 然 后 
通过 将 实例 传递 给 分 类 器 的 classifyInstance() 方 法 产生 预测 。 正 如 读者 所 见 ，Weka 将 预测 
编码 为 一 个 double 型 的 值 ， 这 使 得 评估 模块 以 类 似 的 方式 来 处 理 分 类 预测 和 数值 预测 模 
型 。 对 于 诸如 本 例 的 分 类 预测 ，double 型 变量 保存 预测 的 类 别 值 的 索引 。 要 输出 该 类 别 值 
对 应 的 字符 串 ， 程 序 调用 数据 集 的 类 别 属性 的 value0 方 法 。 当 然 ， 要 输出 数值 预测 值 就 更 
容易 了 ， 直 接 输出 即 可 。 


7.11.3 ”运行 说 明 


如 果 完 成 编码 且 没有 任何 编译 错误 ， 这 只 是 完成 了 一 半 的 工作 ， 另 一 半 的 工作 就 是 对 
程序 进行 测试 。 

这 里 采用 Eclipse IDE， 当 然 直接 在 IDE 下 运行 最 为 方便 。 首 先 ， 在 Eclipse 的 Package 
Explorer 下 ， 右 击 MessageClassifierjava 文件 ， 在 弹出 的 快捷 菜单 中 选择 Run As|Run 
Configurations 菜单 项 ， 打 开 Run Configurations 对 话 框 ， 确 保 你 的 Project 和 Main class 的 
名 称 正确 无 误 ， 然 后 切换 至 Arguments 标签 页 ， 在 Program arguments 选项 组 的 多 行 编辑 器 
中 输入 如 下 命令 参数 : 


MessageClassifier -m education01.txt -c miss -t messageclassifier.model 


结果 如 图 7.12 所 示 。 然 后 单 击 Run 按钮 启动 运行 ， 稍 等 片刻 ， 在 Eclipse 右 下 部 的 
Console 面板 中 会 显示 红色 的 “更 新 模型 成 功 ! ”信息 ， 如 图 7.13 所 示 。 假 如 刷新 一 下 项 
目 ， 可 以 看 到 在 训练 集 文件 的 同 级 目录 下 ， 生 成 了 一 个 messageclassifier.model 文件 ， 这 就 
是 序列 化 的 模型 对 象 。 
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力 pebtyr= ad Deciers 目 console 只 proeres SS 
昌 其 区 | 已 菲 匡 转 于 喇 日 - 口 - 

i > MessegeClassifer Dava APpFcationl CAProgram FleavaVieabinyevanexe 201 年 11 月 7 上 午 11.03:17) 

加 载 扩展 停止 词 存 :sccpwcra-adc 

更 新 模型 成 功 1 


7.13 ”训练 运行 结果 


重复 上 述 过 程 ， 只 不 过 分 别 将 命令 参数 里 的 education01.txt 更 改 为 education02.txt 和 
education03.txt， 也 就 是 使 用 前 三 个 教育 类 别 的 文本 当 作 训练 集 。 然 后 ， 将 训练 文件 分 别 更 
改 为 history01.txt、history02.txt 和 history03.txt， 别 忘 了 要 将 miss 更 改 为 hit， 也 就 是 历史 
类 的 文本 为 命中 ， 教 育 类 的 文本 为 未 命中 ， 再 次 启动 训练 。 至 此 ， 已 经 使 用 六 个 文本 完成 
分 类 模型 的 训练 ， 下 一 步 进 行 预测 。 

仍然 按照 前 述 的 过 程 打 开 如 图 7.12 所 示 的 对 话 框 ， 在 Program arguments 选项 组 的 多 
行 编辑 器 中 将 命令 参数 修改 如 下 : 


MessageClassifier -m education04.txt -t messageclassifier.model 


其 含义 是 ， 使 用 构建 好 的 模型 预测 education04.txt 文件 的 类 别 。 单 击 Run 按钮 ， 运 行 
结果 如 图 7.14 所 示 。 


加 problens 目 console 员 崇 ' 如 
aX 区 | 去 下 怀 园 辐 日 : 口 - 

<terminated> MescageClassifer [lava Application] CNProgram FilesVavaNiregybinVavaw exe (2015 年 11 月 7 上 午 1100.09) 

因 载 扩展 停 上 间歇 : scopwozd.aic 

文本 信息 分 类 为 : nm 


图 7.14 ”预测 运行 结果 


可 见 ， 运 行 结果 符合 预期 。 读 者 可 自行 预测 其 他 文本 文件 ， 甚 至 再 多 找 一 些 语料库 ， 
检查 分 类 算法 的 性 能 。 


人 99 课 后 强化 练习 晶 习 -ee 


7.1 设置 Eclipse IDE 环境 ， 完 成 ARFF 文件 的 加 载 和 保存 。 

7.2 设置 数据 库 ， 从 数据 库 中 加 载 和 保存 数据 集 。 

7.3 ”完成 “在 内 存 中 创建 数据 集 ” 实 验 。 

7.4 “完成 “简单 过 滤器 ”“ 批 量 过 滤 ” 和 “即时 过 滤 ” 实 验 ， 并 说 明 三 种 过 滤 方 式 的 
不 同 。 

7.5 从 7.6.4 节 的 6 个 实验 中 任 选 3 个 实验 完成 。 

7.6 从 7.7.4 节 的 5 个 实验 中 任 选 3 个 实验 完成 。 

7.7 完成 7.8.4 节 中 的 “使 用 元 分 类 器 ”和 “使 用 过 滤器 ”实验 。 

7.8 ”完成 “可 视 化 ROC 曲线 ”实验 。 

7.9 ”编程 实现 模型 序列 化 。 

7.10 ”实际 运行 文本 分 类 示例 ， 并 说 说 对 书 中 的 例子 进行 改进 的 思路 。 
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学 习 方案 源 代码 分 析 


假如 开发 人 员 想 要 实现 一 个 Weka 所 没有 的 、 有 特殊 目的 的 学 习 算 
法 ; 或 者 ， 假 如 想 要 从 事 机 器 学 习 研 究 ， 想 要 钻研 菜 个 新 的 学 习 方 案 ; 或 
者 ， 假 如 想 通过 自己 的 实际 编程 ， 更 多 地 了 解 归纳 算法 的 内 部 运作 : 研究 
Weka 学 习 方 案 源 代码 是 达到 上 述 目 标的 唯一 途径 。 通 过 学 习 已 有 的 算 
法 ， 了 解 Weka 学 习 算 法 的 编写 要 求 ， 才 能 最 终 实现 自己 的 学 习 算法 。 本 
章 使 用 一 个 简单 的 例子 ， 展 示 在 编写 分 类 器 时 ， 如 何 充 分 利用 Weka 中 的 
类 层次 结构 。 
下 面 以 分 析 NaiveBayes 分 类 器 源 代码 为 例 ， 讲 述 分 类 器 内 部 的 工作 
原理 ， 读 者 可 类 推 到 其 他 的 分 类 器 。 其 他 的 学 习 方案 ， 包 括 聚 类 器 算法 和 


关联 规则 学 习 器 ， 都 是 以 类 似 的 方式 进行 组 织 的 。 轴 
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8.1 NaiveBayes 源 代 码 分 析 


NaiveBayes 分 类 器 是 贝 叶 斯 分 类 器 中 重要 的 一 种 ， 其 分 类 原理 是 通过 实例 的 先 验 概 
率 ， 利 用 贝 叶 斯 公式 计算 出 后 验 概率 ， 即 该 实例 属于 某 个 类 别 的 概率 ， 选 择 具 有 最 大 后 验 
概率 的 类 别 作为 实例 的 类 别 。NaiveBayes 模型 有 着 坚实 的 数学 基础 ， 以 及 稳定 的 分 类 准确 
率 。 同 时 ，NaiveBayes 模型 所 需 估 计 的 参数 较 少 ， 对 缺失 数据 不 太 敏感 ， 算 法 也 比较 简 
单 。 因 此 ， 这 里 选择 对 NaiveBayes 源 代码 进行 分 析 。 

如 程序 清单 8.1 所 示 ，weka.classifiers.bayes.NaiveBayes 类 继承 了 AbstractClassifier 
类 ， 并 实现 了 OptionHandler、WeightedInstancesHandler、TechnicalInformationHandler 和 
Aggregateable<E> 接 口 。AbstractClassifier 是 一 个 抽象 类 ，Weka 中 所 有 的 预测 数值 型 或 标 
称 型 的 学 习 方 案 都 要 继承 该 超 类 。 注 意 ， 分 类 器 必须 实现 distributionForInstance() 方 法 或 
classifyInstance() 方 法 的 两 者 之 一 ， 或 全 部 实现 两 个 方法 。OptionHandler 接口 能 让 实现 类 理 
解 选项 ，WeightedInstancesHandler 接口 使 实现 类 能 够 利用 实例 权重 所 提供 的 信息 ; 
TechnicalInformationHandler 接口 允许 实现 类 在 Weka 图 形 用 户 界面 中 显示 算法 的 参考 资 
料 ， 如 论文 、 书 目 等 ; Aggregateable<E> 接 口 可 以 将 与 自身 相同 类 型 (这 里 的 类 型 是 
NaiveBayes) 的 对 象 聚合 在 一 起 。 

静态 变量 serialVersionUID 是 序列 化 版 本 ID; 二 维 数组 m_Distributions 是 属性 估计 
器 ， 保 存 用 于 计算 先 验 概率 分 布 PAY 六) 的 参数 ， 变 量 m_ClassDistribution 是 类 别 估计 器 ， 
用 于 保存 类 别 分 布 P( 功 ;布尔 变量 m_UseKemelEstimator 表示 数值 型 属性 是 否 使 用 核 密度 
估计 器 来 替代 正 态 分 布 ， 布 尔 变量 m_UseDiscretization 表示 数值 型 属性 是 否 使 用 离散 化 蔡 
代 正 态 分 布 ， 整 型 变量 m_ NumClasses 用 于 保存 类 别 的 数量 ，1 表示 数值 类 别 ;变量 
m_Instances 是 数据 集 标题 ， 用 于 打印 半 智 能 化 的 模型 ， 静态 常量 
DEFAULT_NUM_PRECISION 是 数值 型 属性 的 精度 参数 ， 变 量 m_Disc 是 离散 化 过 滤器 ; 
布尔 变量 m_displayModelInOldFormat 指定 是 否 使 用 旧 格 式 显示 模型 。 


程序 清单 8.1 NaiveBayes 变量 


public class NaiveBayes extends AbstractClassifier implements OptionHandler, 
WeightedInstancesHandler, TechnicalInformationHandler 
Aggregateable<NaiveBayes> { 


/x+ 序列 化 版 本 ID */ 
static final long serialVersionUID = 5995231201785697655L; 


/xx 属性 估计 器 */ 
Protected Estimator[] [] m Distributions; 


/xx 类 别 估计 器 */ 


Protected Estimator m ClassDistribution; 


» 支 友 
* 数值 型 属性 是 否 使 用 核 密度 估计 器 来 蔡 代 正 态 分 布 
a 


Protected boolean m UseKernelEstimator = false; 


/**# 

* 数值 型 属性 是 否 使 用 离散 化 蔡 代 正 态 分 布 

up 

Protected boolean m UseDiscretization = false; 


/** 类 别 的 数量 ，1 表示 数值 类 别 */ 
Protected int m NumClasses; 


/ 太太 

* 数据 集 标题 ， 用 于 打印 半 智能 化 的 模型 
wf 

Protected Instances m Instances; 


/*** 数值 型 属性 的 精度 参数 */ 
Protected static final double DEFAULT NUM PRECISION = 0.01; 


/** 

* 离散 化 过 滤器 

Sf 

Protected weka.filters.supervised.attribute.Discretize m Disc = null; 


/太太 

* 是 否 使 用 旧 格式 显示 模型 

人 

Protected boolean m displayModelInOldFormat = false; 


NaiveBayes 类 的 第 一 个 方法 是 globalInfo0， 如 程序 清单 8.2 所 示 。 该 方法 只 是 返回 一 
个 描述 分 类 器 基本 信息 的 字符 串 ， 当 用 户 在 Weka 图 形 用 户 界面 中 选中 该 分 类 器 时 ， 会 显 
示 该 字符 串 。 字 符 串 的 另 一 部 分 ， 由 第 二 个 方法 一 一 getTechnicalInformation0 产 生 ， 该 方 
法 返回 NaiveBayes 算法 的 参考 书目 信息 。 


程序 清单 8.2 globalInfo0 方 法 


public String globalInfo() { 
return "Class for a Naive Bayes classifier using estimator classes. Numeric" 

+ " estimator precision values are chosen based on analysis of the " 

+ " training data. For this reason, the classifier is not an" 

+ " UpdateableClassifier (which in typical usage are initialized with 
zero™ 

+ " training instances) -- if you need the UpdateableClassifier 
functionality," 

+ " use the NaiveBayesUpdateable classifier. The NaiveBayesUpdateable" 

+ " classifier will use a default precision of 0.1 for numeric 
attributes" 

+ " when buildclassifier is called with zero training instances.\n\n" 

+ "For more information on Naive Bayes classifiers, see\n\n" 

+ getTechnicalInformation() .tostring(); 
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程序 清单 8.3 所 示 的 getTechnicalInformation() 方 法 重 写 TechnicalInformationHandler 接 
口 的 对 应 方法 ， 它 返回 该 分 类 器 类 技术 方面 的 信息 ， 信 息 封 装 为 TechnicalInformation 对 


象 ， 包 含 分 类 器 类 的 技术 背景 的 详细 信息 。 例 如 ， 作 为 该 类 实现 理论 基础 的 参考 论文 或 


书籍 。 


程序 清单 8.3 ”getTechnicalInformation() 方 法 


@Override 
public TechnicalInformation getTechnicalInformation() { 


是 


TechnicalInformation result; 


result = new TechnicalInformation (Type. INPROCEEDINGS); 
result.setValue (Field.AUTHOR, "George H. John and Pat Langley"); 
result .setValue (Field. TITLE, 

"Estimating Continuous Distributions in Bayesian Classifiers"); 
Fesult.setValue (Field. BOOKTITLE, 

"Eleventh Conference on Uncertainty in Artificial Intelligence"); 
result .setValue (Field.YEAR, "1995"); 
result .setValue (Field. PAGES, "338-345"); 
Fesult.setValue (Field. PUBLISHER, "Morgan Kaufmann"); 
result .setValue (Field.ADDRESS, "San Mateo"); 


return result; 


第 三 个 方法 为 GetCapabilities()， 如 程序 清单 8.4 所 示 。 它 返回 NaiveBayes 算法 能 处 理 
数据 的 能 力 信息 ， 代 码 设置 了 NaiveBayes 算法 能 处 理 标 称 型 属性 、 数 值 型 属性 和 缺失 值 ， 
以 及 标 称 类 别 和 缺失 类 别 值 ， 并 设置 最 少 的 实例 数量 为 0， 即 该 算法 能 处 理 没 有 实例 的 数 
据 。 关 于 Capabilities 的 功能 描述 详 见 下 一 节 。 


程序 清单 8.4 getCapabilities() 方 法 


@Override 
public Capabilities getCapabilities() { 


Capabilities result = super.getCapabilities(); 
result .disableAll (); 


// 属性 

result .enable (Capability. NOMINAL ATTRIBUTES); 
result .enable (Capability .NUMERIT C ATTRIBUTES); 
result .enable (Capability.MISSING VALUES); 


// 类 别 
result .enable (Capability.NOMINAL CLASS); 
result .enable (Capability.MISSING CLASS VALUES); 


// 实例 
result .setMinimumNumberInstances (0); 


return result; 


程序 清单 8.5 所 示 的 buildClassifier() 方 法 由 训练 数据 集 构建 分 类 器 模型 。 在 本 例 中 ， 
该 方法 首先 检查 训练 数据 的 特征 与 NaiveBayes 分 类 器 能 力 的 匹配 情况 ， 即 分 类 器 是 否 能 够 
处 理 该 数据 集 。 如 果 训 练 数据 的 特征 不 满足 分 类 器 的 要 求 ， 会 导致 Capabilities 对 象 抛 出 例 
外 。 为 了 避免 更 改 原始 数据 ， 方 法 复制 了 一 份 训练 集 ， 并 调用 weka.core.Instances 的 方法 
来 删除 具有 缺失 类 别 值 的 全 部 实例 ， 因 为 这 些 实例 在 训练 过 程 中 没有 用 处 。 

然后 ， 如 果 用 户 设置 了 需要 离散 化 ， 就 对 实例 进行 离散 化 。 

程序 做 了 很 多 工作 来 统计 类 别 分 布 P( 刀 和 类 别 条 件 概率 分 布 PAI)。 由 于 NaiveBayes 
分 类 器 只 能 处 理 连续 的 数值 型 属性 和 离散 的 标 称 型 属性 ， 如 果 是 前 者 ， 需 要 判断 用 户 所 设 
定 的 是 否 使 用 核 估计 器 的 选项 ， 再 选择 是 构建 KernelEstimator 对 象 还 是 NormalEstimator 
对 象 ， 如果 是 后 者 ， 直 接 构建 DiscreteEstimator 对 象 。KernelEstimator、NormalEstimator 
和 DiscreteEstimator 这 三 个 估计 器 都 是 Estimator 类 的 子 类 。 


程序 清单 8.5 ”buildClassifier(Instances instances) 方 法 


override 
public void buildclassifier (Instances instances) throws Exception { 


// 分 类 器 能 否 处 理 数据 
getCapabilities() .testWithFail(instances) 7 


// 删除 具有 缺失 类 别 值 的 实例 
instances = new Instances (instances); 
instances .deleteWithMissingClass (); 


m_NumClasses = instances.numClasses ()7 


// 复制 训练 集 


m Instances = new Instances (instances); 


// 如 果 指 定 ， 就 对 实例 进行 离散 化 
if (m UseDiscretization) { 
m Disc = new weka.filters.supervised.attribute.Discretize(); 
m Disc -SetInputFormat (m Instances); 
m Instances = weka.filters.Filter.useFilter(m Instances, m Disc); 
} else { 
m Disc = null; 
} 


// 为 概率 分 布 预 留 空间 

// 类 别 条 件 概率 分 布 P(X1Y) 

m Distributions = new Estimator[m Instances.numaAttributes () - 1] [m Instances 

.numClasses()]; 

// 类 别 分 布 P(Y) 

m ClassDistribution = new DiscreteEstimator (m Instances.numClasses(), 
true); 

int attIndex = 0; 

Enumeration enu = m Instances.enumerateAttributes (); 


// 循环 处 理 每 一 个 属性 
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while (enu.hasMoreElements()) { 
Attribute attribute = (Attribute) enu.nextElement (); 


// 如 果 属 性 为 数值 型 ， 根 据 相 邻 值 之 间 的 差异 ， 测 定 估计 器 数值 精度 
double numPrecision = DEFAULT NUM PRECISION; 
if (attribute.type() 一 Attribute.NUMERIC) { 
// 根据 当前 属性 的 值 对 数据 集 排序 
m Instances.sort (attribute); 
// 排序 之 后 ， 当 前 属性 为 缺失 值 的 实例 就 排 到 最 前 
// 这 样 ， 判 断 第 一 个 实例 是 否 缺 失 ， 就 知道 是 否 有 缺失 值 
// 如 果 有 ， 就 没有 必要 执行 i£ 后 的 代码 块 
if ((m Instances.numInstances() > 0) 
&& !m Instances.instance(0) .isMissing (attribute)) { 
// lastVal 为 最 后 实例 的 当前 属性 值 
double lastVal = m Instances.instance (0) .value (attribute); 
// currentVal 为 每 个 实例 的 当前 属性 值 ，deltasum 为 差 值 
double currentVal, deltaSum = 0; 
// distinct 为 当前 属性 取 不 同 值 的 数量 
int distinct = 0; 
for (int i = 1; i < m Instances.numInstances(); i++) { 
Instance CuUrrentInst = m Instances.instance (i); 
if (currentInst.isMissing(attribute)) { 
break; 
} 
currentVal = currentInst.value (attribute); 
// 如 果 当 前 值 与 最 后 值 不 等 ， 则 相 减 并 将 差 值 累加 至 deltaSum 
if (CurrentVal != lastVal) { 
deltasum += currentVal - lastVal; 
lastVal = currentVal; 
distinct++; 
} 
} 
// 最 终 的 numPrecision 就 是 deltasum 除 以 distinct 
if (distinct > 0) { 
numPrecision = deltasum / distinct; 


} 
} 


// 循环 处 理 每 一 个 类 别 标签 
for (int j = 0; j < m Instances.numClasses(); j++) { 
// 判断 当前 属性 的 类 型 
Switch (attribute.type()) { 
// 如 果 为 连续 的 数值 型 属性 ， 根 据 是 否 使 用 核 估计 器 的 选项 
// 选择 构建 KernelEstimator 对 象 还 是 NormalEstimator 对 象 
// 两 者 的 构造 函数 都 使 用 numPrecision 作为 参数 
case Attribute.NUMERIC: 
if (m UseKernelEstimator) { 
m_Distributions [attIndex] [j] = new KernelEstimator( 
numPrecision); 
} else { 


m_Distributions [attIndex] [j] = new NormalEstimator( 
numPrecision); 
} 
break; 
// 如 果 为 离散 的 标 称 型 属性 ， 则 构建 DiscreteEstimator 对 象 
case Attribute.NOMINAL: 
m_Distributions [attIndex] [j] = new DiscreteEstimator( 
attribute.numValues () true); 
break; 
// 不 支持 其 他 属性 
default: 
throw new Exception ("Attribute type Unknown to NaiveBayes"); 


} 
attIndex++7 


} 


// 统计 每 一 个 实例 

Enumeration enumInsts = m Instances.enumerateInstances () 7 

while (enumInsts.hasMoreElements()) { 
Instance instance = (Instance) enumInsts.nextElement (); 
// 调用 updateclassifier () 方法 ， 用 实例 更 新 分 类 器 
updateClassifier (instance) 7 

} 


// 节省 空间 
m Instances = new Instances(m Instances, 0); 
+ 


程序 清单 8.6 所 示 的 updateClassifier() 方 法 使 用 给 定 的 实例 更 新 分 类 器 。 输 入 参数 为 要 
对 模型 进行 更 新 的 新 的 训练 实例 ， 如 果实 例 无 法 纳入 模型 中 ， 则 抛 出 例外 。 


程序 清单 8.6 updateClassifier(Instance instance) 方 法 


public void updateClassifier (Instance instance) throws Exception { 


if (!instance.classIsMissing()) { 
Enumeration enumAtts = m Instances.enumerateAttributes () 7 
int attIndex = 0; 
// 循环 处 理 每 一 个 属性 
while (enumAtts.hasMoreElements()) { 
Attribute attribute = (Attribute) enumAtts.nextElement (); 
if (!instance.isMissing(attribute)) { 
// m_Distributions 第 一 个 下 标 为 当前 属性 下 标 ， 第 二 个 下 标 为 类 别 值 
// 统计 样本 实例 对 应 类 别 属性 值 的 分 布 
// 调用 Estimator 的 AddValue 方法 将 新 数据 值 加 入 到 当前 评估 器 中 
m_Distributions [attIndex] [ (int) instance.classValue()] 
-addvValue (instance.value (attribute), 
instance.weight ()); 
} 
attIndext++; 
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// 统计 类 别 分 布 

m_ClassDistribution.addValue (instance.classValue ()， 
instance.weight ()); 


} 


程序 清单 8.7 所 示 的 distributionForInstance() 方 法 对 于 给 定 的 测试 计算 隶属 类 别 的 概 
率 。 输 入 参数 为 待 分 类 的 实例 ， 返 回 预测 类 别 的 概率 分 布 。 如 果 在 生成 预测 中 出 了 什么 问 
题 ， 就 会 抛 出 例外 。 

程序 中 的 理论 基础 是 如 下 的 贝 叶 斯 公式 : 


PO =y)T PO NY =») 
PO =y, [Dp 
由 于 PC9 都 相同 ， 因 此 上 述 的 类 别 预测 公式 可 简化 为 


d 
P(Y =y,|X)= argmax P(Y =»y,)[IP(X,1Y=»,) 
中 


i=1 


distributionForInstance() 方 法 的 主要 工作 就 是 计算 P(Y = y, |X)。 


程序 清单 8.7 distributionForInstance(Instance instance) 方 法 


@Override 
public double[] distributionForInstance (Instance instance) throws Exception { 


// 如 果 指 定 usesupervisedDiscretization 选项 ， 就 对 实例 进行 离散 化 
if (m UseDiscretization) { 
m Disc.input (instance); 
instance = m Disc.output (); 
} 
// 类 别 的 概率 P(Y) 
double[] probs = new double[m NumClasses]; 
// 循环 得 到 每 个 类 别 的 概率 
for (int j = 0; j < m NumClasses; j++) { 
Probs[j] = m ClassDistribution.getProbability(j); 
. 
Enumeration enumAtts = instance .enumerateRAttributes (); 
int attIndex = 0; 
// 循环 处 理 每 个 属性 
while (enumAtts.hasMoreElements()) { 
Attribute attribute = (Attribute) enumAtts.nextElement (); 
if (!instance.isMissing(attribute)) { 
// temp 为 临时 概率 ，max 为 当前 最 大 概率 
double temp, max = 0; 
for (int j = 0; j < m NumClasses; j++) { 
// 计算 每 个 类 别 的 条 件 概率 P (X1Y) 
temp = Math.max(le-75, Math.pow( 
m_Distributions [attIndex] [j] 
.getProbability (instance.value (attribute) )， 
m Instances.attribute (attIndex) .weight ())); 


Ox« 


} 


如 果 学 习 方案 需要 解释 特定 的 选项 ， 如 是 否 使 用 核 密度 估计 器 ， 就 需要 在 分 类 器 类 中 
实现 weka.core 包 的 OptionHandler 接口 ， 实 现 该 接口 的 分 类 器 类 需要 包含 listOptions()、 
setOptions() 和 getOptions() 三 个 方法 。 这 三 个 方法 的 功能 分 别 是 ， 列 出 分 类 器 的 所 有 特定 方 
案 的 选项 、 对 选项 进行 设置 、 获 取 选 项 的 当前 设置 。 如 果 分 类 器 实现 了 OptionHandler 接 
口 ，Evaluation 类 的 evaluation() 方 法 会 自动 调用 这 三 个 方法 。 当 处 理 完 独立 于 方案 的 通用 
选项 之 后 ， 就 会 在 调用 buildClassifier() 方 法 来 生成 新 分 类 器 之 前 ， 先 调用 setOptions() 方 法 
来 处 理 剩 下 的 选项 。 当 Evaluation 类 输出 分 类 器 时 ， 会 调用 getOptions() 方 法 以 输出 当前 设 


} 


probs[j] *= temp; 

// 更 新 最 大 概率 值 

if (probs[j] > max) { 
max = probs[j]; 

} 

if (Double.isNaN(probs[j])) { 
throw new Exception( 


"NaN returned from estimator for attribute " 


+ _ attribute.name () 
at 
+ m Distributions[attIndex] [j] 
.tostring ()); 
} 
} 
if ((max > 0) && (max < le-75)) { 
// 防止 概率 下 溢 的 危险 
for (int j = 0; j < m NumClasses; j++) { 
probs[j] *= le75; 
} 
} 
} 
attIndex++7 


// 概率 规范 化 
Utils.normalize (probs); 
return probs; 


置 的 选项 列表 。 上 述 三 个 方法 如 程序 清单 8.8 一 程序 清单 8.10 所 示 。 


程序 清单 8.8 所 示 的 listOptions() 方 法 返回 一 个 描述 可 用 选项 的 枚 举 。 程 序 中 使 用 的 
Option 类 的 构造 函数 带 四 个 参数 : 第 一 个 参数 为 选项 的 描述 字符 串 ， 第 二 个 参数 为 选项 的 


名 称 ， 第 三 个 参数 为 该 选项 所 带 参 数 的 个 数 ， 第 四 个 参数 为 选项 概要 介绍 。 
程序 清单 8.8 listOptions() 方 法 


@Override 
public Enumeration<Option> listOptions() { 


Vector<Option> newVector = new Vector<Option> (3); 


newVector 
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.addElement (new Option ( 
"\tUse kernel density estimator rather than normal\n" 
+ "\tdistribution for numeric attributes", "K", 
0, "™-K")); 
newVector 
.addElement (new Option( 
"NtUse supervised discretization to process numeric 
attributes\n", 
"D", 0, "-D")); 


newVector .addElement (new Option( 
"\tDisplay model in old format (good when there are " 
+ "any Classoesy NO "On 0 OM"))s 


return newVector.elements(); 
} 


程序 清单 8.9 所 示 的 setOptions() 方 法 设置 给 定 的 选项 列表 。 由 于 不 能 同时 使 用 核 密度 
估计 器 和 离散 化 ， 因 此 程序 检查 是 否 违反 这 条 规则 ， 如 果 违 反 就 抛 出 例外 。 设 置 完 K、 
D、0 三 个 特定 选项 之 后 ， 调 用 Utils 类 的 checkForRemainingOptions() 方 法 检查 剩余 选项 。 


程序 清单 8.9 setOptions(String[] options) 方 法 


@Override 
Public void setoptions (String[] options) throws Exception { 


boolean k = Utils.getFlag('K', options); 
boolean d = Utils.getFlag('D', options); 
// 检查 是 否 违反 不 能 同时 使 用 核 密度 估计 器 和 离散 化 的 规则 
if (kg&& d) { 
throw new IllegalArgumentException("Can't use both kernel density " 
+ "estimation and discretization!"); 
} 
setUseSupervisedDiscretization(d); 
setUseKernelEstimator (k); 
setDisplayModelInoldFormat (Utils.getFlag('0', options)); 
// 检查 剩余 选项 
Utils.checkForRemainingOptions (options); 
} 


程序 清单 8.10 所 示 的 getOptions() 方 法 获取 分 类 器 当前 的 设置 ， 返 回 一 个 由 setOptions() 
方法 传递 进来 的 字符 串 数组 。 


程序 清单 8.10 ”getOptions() 方 法 


@Override 
public String[] getOptions() { 


Vector<String> options = new Vector<string>(); 
int current = 0; 


// -K 为 使 用 核 密度 估计 器 


if (m UseKernelEstimator) { 
options [current++] = "-K"; 
’ 


// -D 为 使 用 离散 化 

if (m UseDiscretization) { 
options [current++] = "-D"7 

} 


// -0 为 使 用 旧 格 式 显 示 模型 
if (m displayModelInOldFormat) { 


options [current++] = "-O"; 

, 

// 忽略 其 他 选项 

while (current < options.length) { 
options [current++] = ""; 


} 
return options; 
} 


大 多 数 的 机 器 学 习 模 型 都 能 或 多 或 少 地 解释 在 数据 中 发 现 的 结构 。 因 此 ，Weka 的 每 
个 分 类 器 ， 和 许多 其 他 的 Java 对 象 一 样 ， 都 实现 了 toString0 方 法 ， 以 字符 串 变 量 的 形式 产 
生 自 身 文字 表述 。 程 序 清单 8.11 所 示 的 toString() 方 法 返回 NaiveBayes 分 类 器 的 描述 字 
守 串 。 

程序 首先 检查 m_displayModelInOldFormat 选项 ， 如 果 设 置 为 以 旧 格 式 显示 ， 则 直接 
调用 toStringOriginal0 方 法 返回 分 类 器 模型 。 

由 于 程序 要 以 表格 形式 打印 训练 数据 集 各 个 属性 的 统计 信息 ， 因 此 免不了 有 大 量 烦 琐 
的 格式 (如 字符 数 ) 计 算 工作 ， 其 中 也 没有 什么 重要 的 算法 ， 请 读者 参见 程序 中 的 注释 。 


程序 清单 8.11 toString() 方 法 


@Override 
public String tostring() { 
// 是 否 以 旧 格 式 显示 
if (m displayModelInOldFormat) { 
return tostringoriginal (); 
四 


StringBuffer temp = new StringBuffer(); 
temp.append ("Naive Bayes Classifier"); 


if (m Instances 一 null) { 

temp.append(": No model built yet."); 
} else { 

// 最 大 宽度 

int maxWidth = 0; 

// 最 大 属性 宽度 


int maxAttWwidth = 07 
// 是 否 使 用 核 密度 
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boolean containsKernel = false; 


// 循环 处 理 类 别 值 
// 计算 最 大 宽度 
for (int i = 0; i < m Instances.numClasses(); i++) { 
if (m Instances.classAttribute () .value(i) .length() > maxWwidth) { 
maxWidth = m Instances.classAttribute () .value(i) .length() 
} 
} 
// 循环 处 理 属性 
// 计算 最 大 属性 宽度 
for (int i = 0; i < m Instances.numAttributes(); i++) { 
if (i != m Instances.classIndex()) { 
Attribute a = m Instances.attribute (i); 
if (a.name().length() > maxAttWidth) { 
maxAttWidth = m Instances.attribute (i) .name () .length (); 
} 
if (a.isNominal()) { 


// 检查 值 
for (int j = 0; j < a.numValues(); j++) { 
String val = a.value(]) + " "; 


if (val.length() > maxAttwidth) { 
maxAttWwidth = val.length(); 


} 


// 循环 处 理 先 验 概率 分 布 
for (int i = 0; i < m Distributions.length; i++) { 
for (int j = 0; j < m Instances.numClasses(); j++) { 
if (m Distributions[i] [0] instanceof NormalEstimator) { 
// 检查 均值 mean、 精 度 precision， 调 整 最 大 宽度 maxwidth 
NormalEstimator n = (NormalEstimator) m Distributions[i] [j]; 
double mean = Math.1og(Math.abs(n.getMean ())) 
/ Math.10g(10.0); 
double precision = Math.1og(Math.abs (n.getPrecision())) 
/ Math.10g(10.0); 
double width = (mean > precision) ? mean : precision; 
if (width < 0) { 
width = 1; 
' 
// decimal + # decimal places + 1 
width += 6.0; 
if ((int) width > maxWidth) { 
maxWidth = (int) width7 
} 
} else if (m Distributions[i] [0] instanceof KernelEstimator) { 
containsKernel = true; 
KernelFstimator ke = (KernelEstimator) m Distributions[i] [j]; 


int numK = ke.getNumKernels () 

String temps = "K" + numK + ": mean (weight)"; 

if (maxAttWidth < temps.length()) { 
maxAttWidth = temps.1length(); 


} 
// 对 最 大 宽度 maxWidth， 检 查 均值 means 和 权重 weights 
if (ke.getNumKernels() > 0) { 
double[] means = ke.getMeans (); 
double[] weights = ke.getWeights(); 
for (int k = 0; k < ke.getNumKernels(); Kk++) { 
String m = Utils.doubleToString (means[k], 
maxWidth, 4) .trim(); 
= 
+ Utils.doubleToString (weights[k], 
maxWidth, 1).trim() + ") "7 
if (maxWidth < m.length()) { 
maxWidth = m.length(); 


} 
} else if (m Distributions[i] [0] instanceof DiscreteEstimator) { 

DiscreteEstimator d = (DiscreteEstimator) 
m Distributions[i] [j]; 
for (int k = 0; k < d.getNumSymbols(); k++) { 

String size = "" + d.getCount (k); 

if (size.length() > maxWidth) { 

maxWidth = size.length(); 


} 
int sum = ("" + d.getsumOofCounts()).length(); 
if (sum > maxWidth) { 

maxWidth = sum; 


// 检 查 类 别 标签 的 宽度 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String csize = m Instances.classAttribute() .value (i); 
if (cSize.length() > maxWidth) { 
maxWidth = cSize.length(); 


} 


// 检查 类 别 先 验 概率 的 宽度 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String priorP = Utils 
.doubleToString( 
((DiscreteEstimator) m ClassDistribution) 
.getProbability (i), 
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maxWidth, 2) .trim(); 
priorP = "(" + priorP + ")"; 
if (priorP.length() > maxWidth) { 
maxWidth = priorP.1length (); 


if (maxAttWidth < "Attribute".length()) { 
maxAttWidth = "Attribute".length (); 


if (maxAttWidth < " weight sum".length()) { 
maxAttWidth = " weight sum".length(); 


if (containsKernel) { 
if (maxAttWidth < " [precision]".length()) { 
maxAttWidth = " [precision]".length(); 


maxAttwidth += 2; 


temp.append ("\n\n"); 
temp.append (pad ("Class", " ", (maxRttWidth + maxWidth + 1) 
- "Class".length(), true)); 


temp.append (™\n"); 
temp.append (pad ("Attribute", " ", 
maxAttWidth - "Attribute".length(), false)); 
// 循环 处 理 类 别 标签 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String classL = m Instances.classAttribute() .value (i); 
temp.append (pad (classL, " ", maxWidth + 1 - classL.length()， 
true) ); 
} 
temp.append ("\n™"); 
// 循环 处 理 类 别 先 验 
temp.append (pad("™", " ", maxAttwidth, true)); 
for (int i = 0; i < m Instances.numClasses(); i++) { 
String priorP = Utils 
.doubleToString( 
((DiscreteEstimator) m ClassDistribution) 
.getProbability (i), 
maxWidth, 2) .trim(); 
Priorp = ™{t" 2 Priorp 1 ")"s 
temp .append (pad (priorP, " ", maxWidth + 1 - priorP.length(), 
true)); 
} 
temp .append("\n") 7 
temp.append(pad(""， "=", 
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maxRttWidth + (maxWidth * m Instances.numClasses ()) 
+ m Instances.numClasses() + 1, true)); 
temp .append("\n") 7 


// 循环 处 理 属性 
int counter = 0; 
for (int i = 0; i < m Instances.numAttributes(); i++) { 
if (i = m Instances.classIndex()) { 
continue; 
} 
String attName = m Instances.attribute (i) .name (); 
temp .append (attName + "\n"); 


if (m Distributions[counter] [0] instanceof NormalEstimator) 
String meanL = " mean"7 
temp.append (pad (meanL, ™ ", 
maxAttWidth + 1 - meanL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
// 计算 均值 
NormalEstimator n = (NormalEstimator) 
m_Distributions [counter] [j]; 
String mean = Utils.aoubleTostring(n.getMean () ， 
maxWidth，4) .trim()7 
temp.append (pad (mean，"”"， 
maxWidth + 1 - mean.length(), true)); 
} 
temp.append ("\n"); 
// 计算 标准 偏差 
String stdDevL = " std. dev."; 
temp.append (pad (stdDevL, ™ ", 
maxAttWwidth + 1 - stdDevL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
NormalEstimator n = (NormalEstimator) 
m_Distributions [counter] [j]; 
String stdDev = Utils.aoubleTostring(n.getStdDpev()， 
maxWidth，4) .trim() 7 
temp .append (pad (stdDev, ™ ", 
maxWidth + 1 - stdDev.length(), true)); 
} 
temp.append (™\n"); 
// 计算 权重 和 
String weightL = " weight sum"; 
temp.append (pad (weightL, ™ ", 
maxAttWidth + 1 - weightL.length(), false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
NormalEstimator n = (NormalEstimator) 
m_Distributions [counter] [j]; 
String weight = Utils.doubleToString( 
n.getsumofWeights(), maxWwidth, 4) .trim(); 
temp.append (pad (weight, ™ "™, 
maxWidth + 1 - weight.length(), true)); 
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} 
temp.append ("\n™"); 
// 计算 精度 
String precisionL = " precision"7 
temp.append (pad (precisionL, " ", maxAttWidth + 1 
— precisionL.length () false)); 
for (int j = 0; j < m Instances.numClasses(); j++) { 
NormalEstimator n = (NormalEstimator) 
m Distributions[counter] [j]; 
String precision = Utils.doubleToString( 
n.getPrecision(), maxWwidth, 4) .trim(); 
temp.append (pad (precision, " ", maxWidth + 1 
— precision.length(), true)); 
} 
temp.append ("\n\n"); 


} else if (m Distributions[counter] [0] instanceof 
DiscreteEstimator) { 
Attribute a = m Instances.attribute (i); 
for (int j] = 0; j < a.numValues(); j++) { 
String val =" "+ a.value(j); 


temp.append (pad (val, " ", 
maxAttWidth + 1 - val.length(), false)); 


for (int k = 0; k < m Instances.numClasses(); K++) { 
DiscreteEstimator d = (DiscreteEstimator) 
m Distributions[counter] [kK]; 
String count = "" + d.getCount (j); 
temp.append (pad (count, ™ ", 
maxWidth + 1 - count.length(), true)); 
} 
temp .append ("\n"); 
} 
// 计算 合计 
String total = " [total]"; 


temp.append (pad (total, ™ ", 
maxAttWidth + 1 - total.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); K++) { 
DiscreteEstimator d = (DiscreteEstimator) 
m_Distributions [counter] [Kk]; 
String count = "" + d.getSumofCounts () 
temp .append (pad (count, ™ ", 
maxWidth + 1 - count.length(), true)); 


} 
temp.append ("\n\n"); 
} else if (m Distributions[counter] [0] instanceof KernelEstimator) { 
String kL = " [# kernels]"; 
temp .append (pad (kL, " ", maxAttWidth + 1 — kL.1length(), 
false)); 

for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m Distributions[counter] [kK]; 


String nk = "" + ke.getNumKernels () 


temp .append (pad (nk, " ", maxWidth + 1 - nk.length(), 


true)); 
} 
temp.append ("\n"); 
// 计算 数值 的 核 、 标 准 偏差 和 精度 
String stdDevL = " [std. dev]"; 
temp .append (pad (stdDevL, ™ ", 
maxAttWidth + 1 - stdDevL.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m Distributions[counter] [kK]; 
String stdD = Utils.doubleToString(ke.getstdDev (), 
maxWidth, 4).trim(); 
temp.append (pad (stdD, ™ ", 
maxWidth + 1 - stdD.length(), true)); 


} 
temp.append ("\n"); 
String precL = " [precision]"; 
temp.append (pad (precL, " ", 
maxAttWidth + 1 - precL.length(), false)); 
for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m_Distributions [counter] [Kk]; 


String prec = Utils.aoubleTostring(ke.getPrecision()， 


maxWidth，4) .trim()7 
temp.append (pad (prec, " ", 
maxWidth + 1 - prec.length(), true)); 
} 
temp.append ("\n"); 
// 首先 要 确定 跨 类 别 的 核 的 最 大 数量 
int maxK = 0; 
for (int k = 0; k < m Instances.numClasses(); k++) { 
KernelEstimator ke = (KernelEstimator) 
m Distributions[counter] [kK]; 
if (ke.getNumKernels() > maxK) { 
maxK = ke.getNumKernels(); 


for (int j = 0; j < maxK; j++) { 
// 先 计算 均值 
String meanL =" K"+ (] +1) +": mean (weight)"; 
temp .append (pad (meanL, ™ ", 
maxAttWidth + 1 - meanL.length(), false)); 


for (int k = 0; k < m Instances.numClasses(); K++) { 


KernelEstimator ke = (KernelEstimator) 
m Distributions[counter] [kK]; 

double[] means = ke.getMeans (); 
double[] weights = ke.getWeights(); 
String m = "——"; 

if (ke.getNumKernels() 一 0) { 
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m= ""+ 0; 
} else if (j < ke.getNumKernels()) { 
m = Utils.doubleToString(means[j], maxWwidth, 4) 
-trim(); 
m+i=" (" 
+ Utils.doubleToString (weights[j], 
maxWidth, 1).trim() + ")"; 
} 
temp.append (pad(m, " ", maxWidth + 1 - m.length()， 
true)); 
} 
temp.append ("\n"); 
} 
temp.append ("\n"); 
} 


Counter++7 


} 


return temp.tostring(); 
} 


程序 清单 8.12 所 示 的 toStringOriginal0 方 法 以 旧 格 式 返 回 分 类 器 的 描述 字符 串 。 相 对 
于 前 面 的 程序 清单 8.11， 旧 格式 简单 多 了 。 程 序 首先 检查 实例 是 否 为 空 ， 如 为 空 则 直接 添 
加 “: No model built yet.”( 模 型 尚未 构建 ) 信 息 。 然 后 使 用 一 个 外 循环 添加 类 别 的 先 验 概 
率 ， 再 用 一 个 内 循环 添加 属性 分 布 的 参数 ， 最 终 返 回 构建 好 的 字符 串 。 


程序 清单 8.12 toStringOriginal0 方 法 


Protected String tostringoriginal() { 
StringBuffer text = new StringBuffer () 7 


text .append ("Naive Bayes Classifier") 7 


if (m Instances 一 null) { 

text.append(": No model built yet."); 
} else { 

try { 


for (int i = 0; i < m Distributions[0] .length; i++) { 
text.append("\n\nClass " 
+ m Instances.classAttribute() .value (i) 
+ ": Prior probability = " 
+ Utils.doubleToString( 
m ClassDistribution.getProbability (i), 4, 2) 
+ "\n\n™); 
Enumeration enumAtts = m Instances.enumerateAttributes (); 
int attIndex = 0; 
while (enumAtts.hasMoreElements()) { 
Attribute attribute = (Attribute) enumAtts 
.nextElement (); 


if (attribute.weight() > 0) { 
text.append (attribute.name() + " 
+ m Distributions[attIndex] [i]); 
} 
attIndex++7 
} 
} 
} catch (Exception ex) { 
text .append (ex .getMessage () ); 
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} 


return text.tostring(); 
} 


程序 清单 8.13 所 示 的 pad() 方 法 是 一 个 字符 串 填 充 的 实用 方法 ， 为 私有 方法 。 其 中 ， 
source 为 原 字 符 串 ，padChar 为 填充 字符 ，length 为 填充 次 数 ，leftPad 为 布尔 型 参数 ， 指 示 
是 否 从 左边 填充 。 该 私有 方法 返回 填充 好 的 字符 串 。 
程序 清单 8.13 ”pad() 方 法 
Private String pad(String source, String padChar, int length, 


boolean leftPad) { 
StringBuffer temp = new StringBuffer(); 


if (leftPad) { 
// 左边 填充 
for (int i = 0; i < length; i++) { 
temp .append (padChar); 
} 
temp.append (source); 
} else { 
// 右边 填充 
temp.append (source); 
for (int i = 0; i < length; i++) { 
temp .append (padChar); 
} 


和 
return temp.tostring(); 


} 

前 文 已 经 讲述 过 ，OptionHandler 接口 可 以 帮助 在 命令 行 中 设置 选项 。 在 图 形 用 户 界面 
中 设置 这 些 选项 ，Weka 使 用 JavaBeans 的 框架 ， 类 使 用 的 每 一 个 参数 都 需要 调用 对 应 的 
setters() 方 法 和 getters() 方 法 。 例 如 ，NaiveBayes 分 类 器 使 用 核 估 计 器 参数 ， 需 要 有 对 应 的 
setUseKernelEstimator() 方 法 和 getUseKermelEstimator0 方法 。 还 应 该 有 一 个 
useKernelEstimatorTipText() 方 法 ， 该 方法 返回 一 个 图 形 用 户 界 面 参数 的 描述 。 前 面 提 到 的 
三 个 方法 分 别 如 程序 清单 8.16、 程 序 清 单 8.15 和 程序 清单 8.14 所 示 ， 后 面 直到 程序 清 
单 8.22 的 方法 都 基于 同样 的 原理 ， 不 再 资 述 。 

程序 清单 8.14 所 示 的 useKemelEstimatorTipText() 方 法 返回 使 用 核 评估 器 的 提示 文本 ， 
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在 探索 者 界面 和 实验 者 界面 中 显示 。 
程序 清单 8.14 useKernelEstimatorTipText() 方 法 


public String useKernelEstimatorTipText () { 
return "Use a kernel estimator for numeric attributes rather than a " 
+ "normal distribution."; 
} 


程序 清单 8.15 所 示 的 getUseKernelEstimator() 方 法 获取 是 否 使 用 核 评估 器 。 
程序 清单 8.15 getUseKernelEstimator() 


Ppublic boolean getUseKernelEstimator() { 


return m UseKernelEstimator; 
} 


程序 清单 8.16 所 示 的 setUseKernelEstimator() 方 法 设置 是 否 使 用 核 评估 器 。 


程序 清单 8.16 ”setUseKernelEstimator(boolean Vv) 方法 
public void setUseKernelEstimator (boolean v) { 
m UseKernelEstimator = V7 
if (v) { 
setUseSupervisedDiscretization (false); 


人 
} 


程序 清单 8.17 所 示 的 useSupervisedDiscretizationTipText() 方 法 返回 使 用 有 监督 离散 化 
的 提示 文本 ， 在 探索 者 界面 和 实验 者 界面 中 显示 。 


程序 清单 8.17 useSupervisedDiscretizationTipText() 方 法 


public String useSupervisedDiscretizationTipText() { 
return "Use supervised discretization to convert numeric attributes to 
nominal " 
+ "ones.™; 
} 
程序 清单 8.18 所 示 的 getUseSupervisedDiscretization() 方 法 获取 是 否 使 用 有 监督 的 离 


散 化 。 
程序 清单 8.18 ”getUseSupervisedDiscretization() 方 法 


Public boolean getUseSupervisedDiscretization() { 


return m UseDiscretization; 
} 


程序 清单 8.19 所 示 的 setUseSupervisedDiscretization() 方 法 设置 是 否 使 用 有 监督 的 离 
散 化 。 
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程序 清单 8.19 setUseSupervisedDiscretization(boolean newblah) 方 法 


public void setUseSupervisedDiscretization (boolean newblah) { 


m UseDiscretization = newblah; 
if (newblah) { 
setUseKernelEstimator (false); 
} 
} 


程序 清单 8.20 所 示 的 displayModelInOldFormatTipText() 方 法 返回 使 用 旧 的 原始 格式 来 
显示 模型 输出 的 提示 文本 ， 在 探索 者 界面 和 实验 者 界面 中 显示 。 
程序 清单 8.20 ”displayModelInOldFormatTipText() 方 法 


public String displayModelInOldFormatTipText () { 
return "Use old format for model output. The old format is " 
+ "better when there are many class values. The new format " 
+ "is better when there are fewer classes and many attributes."; 


} 
程序 清单 8.21 所 示 的 setDisplayModelInOldFormat() 方 法 设置 是 否 使 用 旧 的 原始 格式 来 
显示 模型 输出 。 
程序 清单 8.21 setDisplayModelInOldFormat(boolean d) 方 法 


public void setDisplayModelInOldFormat (boolean d) { 
m displayModelInOoldFormat = d; 
} 


程序 清单 8.22 所 示 的 getDisplayModelInOldFormat() 方 法 获取 是 否 使 用 旧 的 原始 格式 来 
显示 模型 输出 。 
程序 清单 8.22 ”getDisplayModelInOldFormat() 方 法 


public boolean getDisplayModelInoldFormat () { 
return m displayModelInOldFormat; 
} 


程序 清单 8.23 所 示 的 getHeader() 方 法 返回 训练 本 分 类 器 所 使 用 的 数据 集 标 题 。 
程序 清单 8.23 ”getHeader() 方 法 


public Instances getHeader() { 
return m Instances; 
} 


程序 清单 8.24 所 示 的 getConditionalEstimators() 方 法 返回 全 部 的 条 件 估 计 器 。 
程序 清单 8.24 ”getConditionalEstimators() 方 法 


public Estimator[] [] getConditionalEstimators() { 
return m Distributions; 
和 
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程序 清单 8.25 所 示 的 getClassEstimator() 方 法 返回 类 别 估计 器 。 
程序 清单 8.25 ”getClassEstimator() 方 法 


public Estimator getClassEstimator() { 


} 


return m ClassDistribution; 


程序 清单 8.26 所 示 的 getRevision() 方 法 简单 返回 一 个 版 本 标识 符 。 
程序 清单 8.26 ”getRevision( 方 法 


@Override 
public String getRevision() { 


} 


return RevisionUtils.extract ("$Revision: 11741 $"); 


程序 清单 8.27 所 示 的 aggregate() 方 法 重 写 Aggregateable<E> 接 口 的 对 应 方法 ， 该 方法 
将 一 个 对 象 与 本 对 象 聚合 在 一 起 。 
程序 清单 8.27 aggregate() 方 法 


QSuppressWarnings ({ "rawtypes", "unchecked" }) 
@Override 
public NaiveBayes aggregate (NaiveBayes toAggregate) throws Exception { 


// 两 个 分 类 器 的 离散 化 间隔 相 容 是 极 不 可 能 的 事 
// 因此 ， 如 果 使 用 有 监督 离散 化 ， 则 抛 出 例外 
if (m UseDiscretization || 
toAggregate.getUseSupervisedDiscretization()) { 
throw new Exception ("Unable to aggregate when supervised 
discretization " + "has been turned on"); 
} 


// 检查 要 聚合 的 数据 集 标题 是 否 相 容 
if (!m Instances.equalHeaders (toAggregate.m Instances)) { 
throw new Exception ("Can't aggregate - data headers don't match: " 
+ m Instances.equalHeadersMsg (toAggregate.m Instances)); 
} 


// 先 聚 合 类 别 估计 器 
( (Aggregateable) m ClassDistribution) 
-aggregate (toAggregate.m ClassDistribution); 


// 再 聚合 全 部 条 件 估计 器 
for (int i = 0; i < m Distributions.length; i++) { 
for (int j = 0; j < m Distributions[i].length; j++) { 
( (Aggregateable) m Distributions([i] [j]) 
-aggregate (toAggregate.m Distributions[i] [j]); 


return this; 


程序 清单 8.28 所 示 的 finalizeAggregation() 方 法 体 没 有 代码 ， 是 个 空 方法 。 调 用 该 方法 
以 完成 聚合 过 程 。 
程序 清单 8.28 ”finalizeAggregation() 方 法 
override 
public void finalizeAggregation() throws Exception { 
// 什么 也 不 做 
} 
在 命令 行 中 执行 时 调用 类 的 main() 方 法 ， 这 是 分 类 器 的 主 入 口 方法 ， 如 程序 清单 8.29 
所 示 。 正 如 读者 所 见 ，main(0 方 法 的 实现 很 简单 : 调用 父 类 AbstractClassifier 的 
runClassifier() 方 法 ， 使 用 给 定 的 两 个 选项 运行 分 类 器 实例 ， 这 两 个 选项 为 新 建 的 
NaiveBayes 对 象 和 给 定 的 命令 行 选项 。runClassifier() 方 法 告诉 Weka 的 Evaluation 类 使 用 
给 定 的 命令 行 选项 来 评估 提供 的 分 类 器 ， 并 打印 结果 字符 串 。 


程序 清单 8.29 ” main(String[] argv) 方 法 


Ppublic static void main (String[] argv) { 
runClassifier (new NaiveBayes(), argv); 


} 


8.2 ”实现 分 类 器 的 约定 


在 实现 Weka 分 类 器 时 ， 有 一 些 必 须 遵守 的 约定 。 如 果 不 遵 守 这 些 约定 ， 就 会 发 生 比 
较 怪异 的 事情 。 例 如 ，Weka 中 的 评估 模块 可 能 会 在 评估 时 无 法 正确 计算 分 类 器 的 统计 信 
息 。 为 此 ，Weka 提供 了 一 些 辅 助 类 。 常 见 的 辅助 类 是 CheckClassifier 类 ， 用 户 可 以 使 用 
该 类 来 检查 某 个 分 类 器 的 基本 行为 ， 这 是 一 个 检查 分 类 器 的 能 力 (capabilities) 以 及 发 现 问 题 
的 Weka 类 。 如 果 利用 Weka 库 实现 新 的 分 类 器 ， 强 烈 建议 运行 CheckClassifier 类 进行 检 
查 ， 以 确保 新 分 类 器 能 够 正确 运行 ， 并 具有 一 定 的 健壮 性 。 虽 然 通过 所 有 测试 并 不 意味 着 
分 类 器 中 不 存在 错误 ， 但 是 ， 它 肯定 有 助 于 发 现 一 些 常 见 的 错误 。 

运行 CheckClassifier 类 的 一 般 格式 如 下 : 

java weka.classifiers.CheckClassifier -W 分 类 器 全 名 分 类 器 选项 


下 面 讲 述 Weka 分 类 器 的 约定 。 第 一 个 约定 是 : 每 次 调用 分 类 器 的 buildClassifier() 方 
法 时 ， 分 类 器 必须 重 置 (复位 ) 模 型 。CheckClassifier 类 进行 这 方面 的 测试 ， 以 确保 满足 这 个 
要 求 。 当 调用 buildClassifier() 方 法 对 数据 集 构建 模型 时 ， 不 管 分 类 器 先前 已 应 用 到 相同 数 
据 集 或 不 同 数据 集 多 少 次 ， 必 须 始终 获得 相同 的 结果 。 不 过 ，buildClassifier() 方 法 不 能 
位 对 应 于 方案 特定 选项 的 实例 变量 ， 因 为 这 些 设置 在 多 次 调用 buildClassifier(0) 方 法 期 间 必 
须 保持 不 变 。 此 外 ， 调 用 buildClassifier() 方 法 不 能 改变 输入 数据 。 
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下 面 讲述 另外 两 个 约定 。 约 定之 一 是 ， 当 某 个 分 类 器 不 能 做 出 预测 时 ， 其 
classifyInstance() 方 法 必须 返回 Instance.missingValue()， 且 distributionForInstance() 方 法 必须 
返回 所 有 类 别 的 概率 为 零 。 上 一 节 展 示 的 NaiveBayes 分 类 器 实现 就 做 到 了 这 一 点 。 另 一 个 
约定 是 ， 如 果 使 用 分 类 器 对 数值 类 别 进行 预测 ，classifyInstance0 方 法 返回 分 类 器 预测 的 数 
值 。 然 而 ， 有 些 分 类 器 能 够 预测 标 称 型 类 别 和 类 别 的 概率 ， 以 及 数值 型 类 别 的 值 ， 如 
weka.classifiers.lazy.IBk。 实 现 distributionForInstance() 方 法 的 分 类 器 ， 如 果 类 别 是 数值 型 ， 
则 返回 一 个 大 小 为 1 的 数组 ， 它 唯一 的 元 素 包含 了 预测 的 数值 。 

最 后 一 个 约定 并 不 是 绝对 必需 的 ， 但 仍然 有 用 。 每 一 个 分 类 器 应 该 实现 toString() 方 
法 ， 以 输出 自身 的 文字 描述 。 

下 面 看 一 下 Weka 的 Capabilities( 能 力 ) 思 路 。 如 前 所 述 ，Weka 的 能 力 使 学 习 方案 可 以 
表示 它 能 够 处 理 哪些 数据 特征 。 当 用 户 单 击 Capabilities 按钮 时 ， 会 在 对 象 编辑 器 中 显示 能 
力 信息 。 在 探索 者 界面 中 ， 若 当前 数据 与 分 类 器 声称 的 能 力 不 匹 配 ，Weka 能 力 能 够 帮助 
禁用 不 适合 的 学 习 方案 ， 使 用 户 不 至 于 错 选 。 

为 了 减轻 Weka 新 手 的 编程 负担 ， 学 习 方案 的 主要 类 型 的 超 类 包括 AbstractClassifier、 
AbstractClusterer 和 AbstractAssociator， 在 默认 情况 下 都 禁用 所 有 的 能 力 约束 。 这 使 得 程序 
员 可 以 专注 于 学 习 方 案 功 能 实现 的 主要 任务 ， 而 不 必 分 心 于 处 理 Weka 能 力 。 然 而 ,一 旦 
学 习 方案 能 够 正常 工作 且 效 果 满 意 ， 程 序 员 应 该 重 写 超 类 的 getCapabilities() 方 法 ， 指 定 学 
习 方 案 处 理 各 种 数据 特征 的 能 力 约束 ， 以 反映 该 方案 的 能 力 。getCapabilities() 方 法 返回 一 
个 weka.core.Capabilities 对 象 ， 其 中 封装 了 该 方案 能 处 理 的 数据 特征 。 

如 程序 清单 8.4 所 示 ， 分 类 器 的 getCapabilities() 方 法 首先 通过 调用 super.getCapabilities() 
方法 获取 Capabilities 对 象 ， 返 回 的 是 没有 任何 约束 的 Capabilities 对 象 。 最 佳 的 处 理 方 
法 是 先 对 Capabilities 对 象 调用 disableAll0 方 法 ， 然 后 再 启用 本 学 习 方 案 能 够 处 理 的 相关 
特征 。 

上 一 节 的 NaiveBayes 分 类 器 就 是 这 样 做 的 ， 它 启用 了 处 理 标 称 型 属性 的 能 力 、 标 称 型 
类 别 属性 的 能 力 、 缺 失 类 别 值 的 能 力 ， 还 指定 所 需 的 最 少 为 零 的 训练 实例 。 在 大 多 数 情况 
下 ， 单 个 的 能 力 可 通过 调用 Capabilities 对 象 的 enable0 方 法 或 disable() 方 法 来 开启 或 关 
闭 。 这 些 方法 采用 定义 在 表 8.1 中 的 枚 举 常 量 作为 参数 ， 这 些 枚 举 常 量 是 Capabilities 类 的 
一 部 分 。 


表 8.1 Enum Capabilities.Capability( 枚 举 常量 概要 ) 
枚 举 常量 


BINARY _ ATTRIBUTES 


能 处 理 二 元 属性 

能 处 理 二 元 类 别 

能 处 理 日 期 型 属性 
能 处 理 日 期 型 类 别 
能 处 理 空 标 称 型 属性 


BINARY_CLASS 


DATE ATTRIBUTES 


DATE CLASS 


EMPTY _ NOMINAL ATTRIBUTES 


续 表 
枚 举 常量 功 能 
EMPTY NOMINAL CLASS 能 处 理 空 标 称 型 类 别 
MISSING CLASS VALUES 能 处 理 类 别 属性 的 缺失 值 
MISSING VALUES 能 处 理 属性 中 的 缺失 值 
NO CLASS 能 处 理 没有 类 别 属性 的 数据 ， 如 聚 类 器 
NOMINAL ATTRIBUTES 能 处 理 标 称 型 属性 
NOMINAL CLASS 能 处 理 标 称 型 类 别 
NUMERIC ATTRIBUTES 能 处 理 数值 型 属性 
NUMERIC CLASS 能 处 理 数值 型 类 别 
ONLY _ MULTIINSTANCE 能 处 理 多 实例 数据 
RELATIONAL ATTRIBUTES 能 处 理 关系 型 属性 
RELATIONAL CLASS 能 处 理 关 系 型 类 别 
STRING ATTRIBUTES 能 处 理 字符 串 型 属性 
STRING CLASS 能 处 理 字符 串 型 类 别 
UNARY ATTRIBUTES 能 处 理 一 元 属性 
UNARY CLASS 能 处 理 一 元 类 别 


8.1 
8.2 
8.3 
8.4 


59 课 后 强化 练习 碍 了 


为 什么 要 分 析 Weka 学 习 方案 的 源 代码 ? 

简 述 NaiveBayes 分 类 器 算法 。 

分 类 器 必须 实现 哪 两 个 方法 之 一 或 全 部 ? 

使 用 CheckClassifier 类 对 新 编写 的 分 类 器 进行 检查 后 ， 没 发 现 错误 就 是 没有 错 


误 。 这 种 说 法 正确 吗 ? 为 什么 ? 
8.5 每 次 调用 分 类 器 的 buildClassifier() 方 法 时 ， 分 类 器 必须 完成 什么 工作 ? 


8.6 


当 某 个 分 类 器 不 能 做 出 预测 时 ， 其 classifyInstance() 方 法 必须 返回 什么 对 象 ? 


8.7 Weka 的 Capabilities 有 什么 用 途 ? 
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通过 前 面 章节 的 学 习 ， 读 者 肯定 对 如 何 使 用 优秀 开源 工具 Weka 来 进 
行 数据 挖 握 和 机 器 学 习 充 满 信 心 。 为 了 多 给 读者 一 些 理论 联系 实际 的 锻炼 
机 会 ， 本 章 收 录 了 一 些 典 型 的 实战 项 目 ， 数 据 集 都 来 自 公 开 的 世界 级 竞赛 
用 数据 集 ， 这 些 竞 赛 项 目 是 当年 本 领域 的 技术 难题 ， 竞 赛 组 织 者 试图 通过 
联合 全 世界 的 智力 来 解决 这 些 科学 问题 。 
尽管 当前 技术 已经 有 了 很 大 的 进步 但是， 通过 研究 这 些 以 前 的 竞赛 
页 目 ，Weka 爱好 者 不 但 能 够 更 好 地 应 用 各 种 技术 来 解决 实际 问题 ， 通 过 
实践 锻炼 自己 的 技术 能 力 ， 而 且 能 够 站 在 一 定 的 高 度 考虑 将 来 可 能 遇 到 的 
实际 项 目 ， 为 解决 实际 问题 打下 坚实 的 基础 。 


© 


数据 挖掘 三 机 器 学 习 
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9.1 数据 挖掘 过 程 概述 


前 面 章节 的 学 习 已 经 展示 了 Weka 功能 的 方方面面 ，Weka 的 强大 功能 肯定 会 给 读者 留 
下 很 深 的 印象 。 有 的 读者 可 能 已 经 迫不及待 地 想 在 实际 挖掘 项 目 中 大 干 一 场 ， 且 慢 ， 让 我 
们 先 来 澄清 一 些 重要 的 概念 ， 更 好 地 理解 Weka 在 数据 挖掘 中 的 地 位 和 作用 。 

一 些 数据 挖掘 初学 者 经 过 一 段 时 间 的 学 习 和 尝试 后 ， 觉 得 数据 挖掘 工具 Weka 几乎 无 
所 不 能 ， 不 管 是 什么 数据 ， 只 要 把 数据 格式 变换 为 Weka 支持 的 ARFF 格式 或 CSV 格式 ， 
然后 用 Weka 加 载 、 训 练 和 评估 ， 满 意 的 结果 自然 就 出 来 了 ， 大 家 都 很 高 兴 。 不 切实 际 的 
数据 挖掘 过 程 如 图 9.1 所 示 。 
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9.1 不 切实 际 的 数据 挖掘 过 程 


事实 上 ， 能 够 直接 这 样 处 理 的 数据 是 非常 稀少 的 ， 绝 大 多 数 数据 挖掘 都 很 耗 时 并 且 复 
杂 程 度 很 高 ， 需 要 遵循 一 定 的 数据 挖掘 过 程 才能 得 到 好 的 效果 。 


9.1.1 CRISP-DM 过 程 


数据 挖掘 领域 公认 的 标准 过 程 是 CRISP-DM 过 程 。CRISP-DM(CRoss-Industry Standard 
Process for Data Mining) 的 含义 是 “跨行 业 数据 挖掘 过 程 标准 ”。 该 KDD( 数 据 挖掘 与 知识 
发 现 ) 过 程 模型 于 1999 年 由 欧盟 机 构 联合 起 草 ， 通 过 近 几 年 的 发 展 ，CRISP-DM 模型 在 各 
种 KDD 过 程 模型 中 占据 领先 位 置 ， 采 用 量 达到 近 60%。 

CRISP-DM 模型 为 KDD 工程 提供 一 个 完整 的 过 程 描 述 。 该 模型 将 KDD 工程 分 为 如 
下 六 个 用 于 解决 数据 挖掘 问题 的 阶段 。 

(1) 商业 理解 。 从 商业 的 角度 去 了 解 项 目的 要 求 和 最 终 目 的 ， 并 将 这 些 目的 与 数据 挖 
掘 的 定义 以 及 结果 结合 起 来 。 此 阶段 需要 确定 数据 挖掘 目标 以 及 制订 工程 计划 ， 是 数据 挖 
掘 最 重要 的 阶段 。 

(2) 数据 理解 。 了 解数 据 源 以 及 这 些 数据 的 特征 。 此 阶段 包括 收集 初始 数据 、 描 述 数 
据 、 探 索 数据 和 验证 数据 质量 。 

(3) 数据 准备 (数据 预 处 理 )。 对 可 用 的 原始 数据 进行 预 处 理 ， 包 括 选择 、 清 理 、 构 建 、 
集成 以 及 格式 化 ， 使 之 适用 于 挖掘 。 

(4) 建立 模型 。 应 用 数据 挖掘 工具 建立 模型 。 可 以 选择 和 应 用 不 同 的 建 模 技 术 ， 将 模 
型 参数 调整 到 最 佳 。 

(5) 模型 评估 。 查 看 数据 挖掘 结果 ， 评 估 挖 掘 结 果 在 多 大 程度 上 能 够 帮助 实现 业务 目 
标 ， 重 点 考虑 得 出 的 结果 是 否 符合 第 一 步 的 商业 目的 。 

(6) 部 署 (方案 实施 )。 结 合 日 常 的 业务 流程 ， 将 新 数据 应 用 于 模型 以 解决 业务 问题 。 


CRISP-DM 过 程 模型 如 图 9.2 所 示 。 图 中 的 外 圈 象 征 数据 挖掘 迭代 循环 的 本 质 ， 一 个 
过 程 中 得 到 的 知识 可 以 触发 新 的 商业 问题 。 


图 9.2 CRISP-DM 过 程 模型 
本 章 后 续 部 分 主要 讲述 以 Weka 为 中 心 的 数据 准备 、 建 立 模型 和 模型 评估 。 


9.1.2 ”数据 预 处 理 


数据 是 数据 挖掘 的 基础 ， 要 得 到 好 的 挖掘 效果 就 需要 好 的 数据 。 因 此 ， 数 据 预 处 理 ( 数 
据 准 备 ) 是 构建 挖掘 模型 的 重要 步 又。 数据 预 处 理发 生 在 已 经 理解 数据 之 间 的 关联 及 内 容 以 
后 ， 包 括 数 据 清 理 、 数 据 转换 、 整 合 等 。 据 统计 ， 预 处 理 过 程 一 般 要 占 数据 挖掘 项 目的 
40% 一 70% 的 时 间 ， 在 一 些 复杂 项 目 中 甚至 占 总 项 目 时 间 的 80%。 因 此 ， 数 据 预 处 理 是 非 
常 重 要 的 挖掘 环节 ， 其 处 理 好 坏 将 直接 影响 整个 项 目的 效果 。 

挖掘 过 程 最 耗 时 的 就 是 数据 预 处 理 ， 本 章 9.3 节 案 例 的 数据 预 处 理 时 间 将 会 大 大 超出 
很 多 读者 的 预期 。 该 过 程 如 此 耗 时 的 主要 原因 如 下 。 

存储 在 数据 仓库 中 的 数据 并 不 一 定 适 合 模型 的 构建 及 应 用 。 虽 然 建立 数据 仓库 时 ， 数 
据 转换 过 程 将 不 同 数据 源 里 的 数据 整合 起 来 并 完成 必要 的 清理 和 格式 化 ， 但 是 用 于 挖掘 的 
数据 可 能 分 布 在 多 个 表 中 ， 仓 库 里 的 数据 还 可 能 存在 缺失 值 、 无 效 值 和 不 完整 值 等 ， 这 些 
都 不 利于 挖掘 模型 的 构建 。 因 此 ， 在 构建 挖掘 模型 前 ， 还 需要 对 已 有 数据 进行 一 系列 的 
转换 过 程 ， 如 填补 缺失 值 、 蔡 换 无 效 值 、 整 合 表 数 据 、 计 算 时 间 序 列 ， 以 及 行列 置换 等 。 

虽然 Weka 提供 了 很 多 过 滤器 算法 ， 能 够 处 理 一 般 的 预 处 理 问题 。 但 是 ， 有 时 需要 使 
用 一 些 非常 规 的 办 法 ， 不 一 定 能 够 直接 找到 合适 的 过 滤器 。 这 时 ， 就 要 考验 挖掘 者 有 效 使 
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数据 挖 所 与 机 器 学 习 
用 各 种 处 理工 具 (包括 数据 库 、 文 本 编辑 器 ) 的 能 力 ， 挖 掘 者 必须 熟悉 相关 的 数据 转换 算 
法 、SQL 语言 、 数 据 库 结构 优化 以 及 熟悉 数据 本 身 。 但 遗憾 的 是 ， 通 常 挖掘 者 并 不 一 定 具 
备 上 述 技能 和 经 验 。 即 便 是 有 经 验 的 数据 挖掘 者 ， 很 多 时 候 也 需要 花费 大 量 时 间 去 编写 
SQL 代码 (甚至 Java 或 其 他 语言 代码 )， 以 进行 数据 转换 操作 。 
另外 ， 要 顺利 完成 数据 挖掘 前 的 数据 预 处 理工 作 ， 数 据 挖掘 者 需要 了 解数 据 库 结 构 以 
及 原始 数据 ， 并 与 业务 需求 相关 联 。 这 就 要 求 数据 挖掘 者 与 数据 库 管 理 员 进行 大 量 的 沟 
通 ， 共 同 理 清 需求 ， 以 获取 所 需 的 数据 。 
为 了 取得 更 好 的 挖掘 效果 ， 大 部 分 时 候 都 需要 反复 迭代 进行 数据 预 处 理 、 建 立 挖掘 模 
型 和 模型 验证 ， 这 样 会 花费 更 多 的 时 间 。 
因此 ， 在 数据 挖掘 项 目 中 ， 虽 然 运用 算法 构建 模型 是 数据 挖掘 过 程 中 最 复杂 的 一 个 环 
节 ， 但 这 个 环节 Weka 已 经 做 得 很 好 了 ， 有 很 多 成 熟 的 学 习 算法 可 供 直接 使 用 。 耗 时 且 花 
费 大 部 分 精力 的 数据 预 处 理 过 程 却 还 是 很 原始 ， 人 迫切 需要 一 个 行 之 有 效 的 方法 来 解决 数据 
挖掘 中 的 预 处 理 问 题 ， 以 保障 挖掘 项 目的 顺利 进行 。 


9.1.3 ”挖掘 项 目 及 工具 概述 


本 章 使 用 Weka、MySQL 数据 库 以 及 文本 编辑 工具 对 KDD Cup 1999 和 KDD Cup 
2010 的 公开 数据 集 进行 挖掘 。 

KDD 是 知识 发 现 与 数据 挖掘 (Knowledge Discovery and Data Mining) 的 英文 字 首 缩写 ， 
KDD Cup 是 由 ACM(Association for Computing Machinery ， 美 国 计 算 机 协会 ) 的 
SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining，ACM 知识 发 现 与 
数据 挖掘 专 委 会 ) 组 织 的 年 度 竞赛 。 竞 赛 网 址 为 http://www.kdd.org/kdd-cup/view/kdd-cup- 
2010-student-performance-evaluation。 

数据 库 系统 已 经 使 用 很 广泛 ， 具 有 以 下 优势 : 能 够 存储 大 量 数据 ， 且 占用 空间 少 ， 数 
据 库 管理 操作 方便 、 快 捷 ， 检 索 统计 准确 、 迅 速 、 高 效 ， 数据库 对 数据 进行 集中 管理 ， 可 
以 通过 网 络 技术 使 数据 共享 。 本 书 数据 库 采 用 MySQL 5.6.12， 这 是 高 效 且 免费 的 数据 库 系 
统 ， 后 文 KDD Cup 2010 预 处 理 几 乎 都 在 MySQL 数据 库 中 执行 。 

文本 编辑 器 非常 重要 ， 一 些 文本 编辑 器 无 法 编辑 很 大 的 数据 文件 。 要 对 数 百 兆 字 节 其 
至 数 吉 字 节 的 文本 文件 进行 编辑 ， 诸 如 记事 本 等 常用 文本 编辑 器 肯定 是 不 适合 的 。 如 果 试 
图 用 这 些 文本 编辑 器 去 打开 几 十 兆 字 节 的 文本 文件 ， 也 要 等 上 数 分 钟 时 间 才 能 打开 ， 别 说 
编辑 、 存 盘 等 更 为 耗 时 的 操作 。Windows 自 带 记事 本 加 载 数 吉 字 节 的 文件 会 直接 报错 ， 商 
业 的 Microsoft Office Excel 也 没 法 加 载 很 大 的 CSV 文件 。 

工 欲 善 其 事 ， 必 先 利 其 器 。 本 书 推荐 使 用 Emurasoft 公司 的 EmEditor 编辑 器 产品 ， 使 用 
该 工具 ， 加 载 KDD Cup 1999 所 使 用 的 大 小 为 73MB 的 kddcup.data_10_percent_corrected.csv 
文件 仅 需要 不 到 5 秒 钟 ， 加 载 数 吉 字 节 的 大 文件 也 不 在 话 下 ， 可 以 大 大 提高 处 理 效率 。 


9.2 实战 KDD Cup 1999 


KDD Cup 1999 数据 集 用 于 第 五 届 知 识 发 现 与 数据 挖掘 会 议 的 竞赛 项 目 ， 其 竞赛 任务 
是 构建 一 个 网 络 入 侵 检测 系统 ， 该 预测 模型 能 够 辨别 出 到 底 是 入 侵 或 攻击 的 “ 坏 (bad)” 连 


接 还 是 正常 的 “好 (good)” 连 接 。 该 数据 集 包含 一 组 标准 的 审计 数据 ， 其 中 包括 在 军事 网 
络 环境 中 模拟 的 各 种 入 侵 。 


9.2.1 任务 描述 


1998 年 ， 美 国 国防 部 高 级 规划 署 (DARPA) 在 MIT 林肯 实验 室 进 行 了 一 个 入 侵 检 测评 
估 项 目 。 林 肯 实 验 室内 建立 了 模拟 美国 空军 局 域 网 的 一 个 网 络 环境 ， 收 集 了 9 周 时 间 的 
TCPdump 网 络 连接 和 系统 审计 数据 ， 仿 真 各 种 用 户 类 型 、 各 种 不 同 的 网 络 流量 和 攻击 手 
段 ， 使 它 就 像 一 个 真实 的 网 络 环境 。 这 些 TCPdump 采集 的 原始 数据 被 分 为 两 个 部 分 : 7 周 
时 间 的 训练 数据 大 概 包含 5000000 多 个 网 络 连接 记录 ， 剩 下 的 2 周 时 间 的 测试 数据 大 概 包 
含 2000000 个 网 络 连 接 记 录 。 

一 个 网 络 连接 定义 为 在 某 个 时 间 内 从 开始 到 结束 的 TCP 数据 包 序 列 ， 并 且 在 这 段 时 间 
内 ， 数 据 在 预定 义 的 协议 (如 TCP、UDP) 下 从 源 他 地 址 到 目的 人 P 地 址 进行 传递 。 每 个 网 
络 连接 被 标记 为 正常 (normal) 或 异常 (attack)， 异 常 类 型 被 细 分 为 4 大 类 共 39 种 攻击 类 型 ， 
其 中 22 种 攻击 类 型 出 现在 训练 集中 ， 另 有 17 种 未 知 攻击 类 型 只 出 现在 测试 集中 。 有 意 将 
未 知 攻击 类 型 放 进 测试 集 ， 是 为 了 评估 模型 的 泛 化 能 力 。 

4 种 异常 类 型 具体 如 下 。 

(1) DoS(Denialof-Service attack， 拒 绝 服务 攻击 )， 如 死亡 之 Ping(ping-of-deathb)、 泛 洪 
攻击 (syn flood)、Smurf 攻击 (smurf) 等 。 

(2) R2L(Remote-to-Local attack， 来 自 远程 主机 的 未 授权 访问 )， 如 密码 猜测 (guessing 
password) 。 

(3) U2R(User-to-Root attack， 未 授权 的 本 地 超级 用 户 特权 访问 )， 如 缓冲 区 溢出 攻击 
(buffer overflow attack) 。 

(4) PROBE(Probing attack， 通 过 端口 监视 或 扫描 收集 信息 )， 如 端口 扫描 (port-scan)、 
Ping 扫射 (ping-sweep) 等 。 

这 4 种 异常 类 型 由 文件 training attack_types.txt 定义 ， 为 了 方便 对 照 ， 表 9.1 以 表格 形 
式 对 训练 集中 的 22 种 攻击 类 型 进行 归纳 。 


表 9.1 攻击 类 型 一 览 


序 号 攻击 类 型 
back 


异常 类 型 简称 


buffer_ overflow 
ftp write 


guess_passwd 


ipsweep 
land 
loadmodule 


D 
U 
R 
R 
R 
时 
D 
TU 
及 
D 
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@< 
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WE 


续 表 
序 号 攻击 类 型 异常 类 型 简称 
11 nmal 于 
只 perl U 
13 phf 及 
14 pod D 
15 portsweep 了 
16 Tootkit TU 
17 satan P 
18 SmUIf D 
19 Spy R 
20 teardrop D 
21 warezclient 及 
22 Warezmaster R 


随后 ， 来 自 哥 伦比 亚 大 学 的 Sal Stolfo 教授 和 来 自 北 卡罗来纳 州立 大 学 的 Wenke Lee 
教授 采用 数据 挖掘 等 技术 对 以 上 的 数据 集 进 行 特征 分 析 和 数据 预 处 理 ， 形 成 了 一 个 新 的 数 
据 集 ， 这 就 是 1999 年 使 用 的 KDD Cup 竞赛 数据 集 。 


9.2.2 ”数据 集 描述 


KDD Cup 1999 数据 集 的 竞赛 任务 是 区 分 “ 坏 ” 的 连接 (入 侵 或 攻击 ) 和 “好 ”的 正常 连 
接 ， 网 址 http://archive.ics.uci.edu/ml/databases/kddcup99/kddcup99.html 提供 竞赛 的 任务 描述 
和 数据 文件 ， 有 具体 的 任务 描述 可 参见 网 址 http://archive.ics.uci.edu/ml/databases/kddcup99/ 
task.html，9 个 数据 文件 如 下 。 

(1) kddcup names: 该 文件 列 出 数据 集 属性 名 称 。 

(2) kddcup.data.gz: 完整 的 数据 集 文件 ， 压 缩 后 18MB ， 解 压 后 743MB 。 共 有 
4898431 个 样本 。 

(3) kddcup.data_10_percent.gz: 10% 的 数据 子 集 ， 压 缩 后 2.1MB， 解 压 后 45MB。 共 有 
494021 个 样本 。 

(4) kddcup.newtestdata_10_percent_unlabeled.gz: 未 打 标 签 的 新 的 10% 测 试 集 文件 ， 压 
缩 后 1.4MB， 解 压 后 45MB。 

(5) kddcup.testdata.unlabeled.gz: 未 打 标 签 的 测试 集 文件 ， 压 缩 后 11.2MB ， 解 压 后 
430MEB 。 

(6) kddcup.testdata.unlabeled_10_percent.gz: 未 打 标 签 的 10% 测 试 集 文件 ， 压 缩 后 
1.4MB， 解 压 后 45MB。 

(7) corrected.gz: 测试 集 文件 ， 具 有 正确 标签 。 

(8) training attack_types: 列 示 入 侵 类 型 的 文件 。 

(9) typo-correction .txt: 2007 年 6 月 26 日 发 布 的 改 错 简要 说 明文 件 ， 说 明 kddcup.data 
文件 第 4817100 行 和 kddcup.data 10_percent 文件 第 485798 行 的 小 错误 。 


KDD Cup 1999 数据 集中 每 个 连接 使 用 41 个 属性 进行 描述 ， 加 上 一 个 类 别 属性 ， 一 个 
42 个 属性 。 训 练 集 和 测试 集 的 属性 信息 如 下 。 

(1) duration: 连接 持续 时 间 ， 单 位 为 秒 ， 数 值 类 型 。 如 果 连 接 的 持续 时 间 不 足 1 秘 ， 
则 duration 取 值 为 0。 

(2) protocol type: 协议 类 型 ， 离 散 类 型 。 共 有 3 种 : tcp、udp 和 icmp。 

(3) service: 目标 主机 的 网 络 服务 类 型 ， 离 散 类 型 。 共 有 70 种 : vmnet、smtp、 
ntp u、 shell、 kshell、 aol、imap4、urh i、netbios ssn、tftp u、mtp、uucp、nnsp、echo、 
tim i、 ssh、iso tsap 、time、netbios ns 、systat、hostnames、login、efs、 supdup 、 
http_8001 、courier、ctf、finger、nntp、ftp data、red i、ldap、http、ftp、pm dump、 
exec、 klogin、auth、netbios dgm 、other 、link 、X11 、discard 、private 、remote job 、 
IRC、 daytime 、pop 3 、pop_ 2 、gopher 、sunrpc 、name 、Ie 、domain 、uucp_path 、 
http 2784、Z39 50、domain u、csnet ns、WwWhols、eco_1、bsgp、sql net、Pprinter 、telnet、 
ecr i、 urp i、 netstat、http 443 和 harvest。 

(4) flag: 连接 正常 或 错误 的 状态 ， 离 散 类 型 。 共 有 11 种 : RSTR、S3、SF、RSTO、 
SH、 OTH、 S2、RSTOS0、S1、S0 和 REJ。 

(5) sre_bytes: 从 源 主机 到 目标 主机 数据 的 字 节 数 ， 数 值 类 型 。 

(6) dst_bytes: 从 目标 主机 到 源 主机 数据 的 字 节 数 ， 数 值 类 型 。 

(7) land: 若 连 接 来 自 或 发 送 至 同一 个 主机 及 端口 则 取 值 为 1， 和 否则 为 0， 离散 类 型 。 

(8) wrong _fragment: 错误 分 段 的 数量 ， 数 值 类 型 。 

(9) urgent: 加 急 包 的 数量 ， 数 值 类 型 。 

(10) hot: 访问 系统 敏感 文件 和 目录 的 次 数 ， 数 值 类 型 。 

(11) num failed logins: 尝试 登录 的 失败 次 数 ， 数 值 类 型 。 

(12) logged_in: 成 功 登录 则 为 |， 否则 为 0， 离 散 类 型 。 

(13) num_compromised: 目标 主机 compromised( 妥 协 ) 的 次 数 ， 数 值 类 型 。 

(14) root_shell: 如 果 获 得 root shell 权限 则 为 1， 和 否则 为 0， 离散 类 型 。 

(15) su_attempted: 如 果 尝 试 su root 命令 则 为 1， 否则 为 0， 离散 类 型 。 

(16) num root: root 访问 次 数 ， 数 值 类 型 。 

(17) num file creations: 文件 创建 操作 的 次 数 ， 数 值 类 型 。 

(18) num_shells: 使 用 shell 命令 的 次 数 ， 数 值 类 型 。 

(19) num access _files: 对 访问 控制 文件 进行 操作 的 次 数 ， 数 值 类 型 。 


(20) num_outbound_cmds: 一 个 FTP 会 话 中 outbound“ 出 站 连接 ”命令 的 次 数 ， 数 值 


类 型 。 
(21) is_host login: 如 果 登 录 属 于 hot 列表 则 为 1， 和 否则 为 0， 离散 类 型 。 
(22) is_guest_login: 如 果 是 guest 登录 则 为 1， 和 否则 为 0， 离散 类 型 。 
(23) count: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 目标 主机 的 连接 数量 ， 数 值 类 型 。 
(24) srv_count: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 服务 的 连接 数量 ， 数 值 类 型 。 


(25) serror rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 


SYN 错误 的 百分比 ， 数 值 类 型 。 


(26) srv_serror rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 服务 的 连接 中 ， 出 现 
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SYN 错误 的 百分比 ， 数 值 类 型 。 

(27) rerror rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 REJ 
错误 的 百分比 ， 数 值 类 型 。 

(28) srv_rerror rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 服务 的 连接 中 ， 出 现 REJ 
错误 的 百分比 ， 数 值 类 型 。 

(29) same_srv_rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 相 同 
服务 连接 的 百分比 ， 数 值 类 型 。 

(30) diff srv_rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 不 同 服 
务 连接 的 百分比 ， 数 值 类 型 。 

(31) srv_diff host rate: 在 过 去 的 两 秒 内 ， 与 当前 连接 具有 相同 服务 的 连接 中 ， 不 同 
目标 主机 连接 的 百分比 ， 数 值 类 型 。 

(32) dst_host_count: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 的 连接 数量 ， 数 
值 类 型 。 

(33) dst_host srv_count: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 相 同 服务 
的 连接 数量 ， 数 值 类 型 。 

(34) dst_ host same srv_rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 相 同 
服务 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(35) dst_host_ diff srv_rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 不 同 服 
务 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(36) dst_host same src_port rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 
相同 源 端口 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(37) dst_host_srv_diff host rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 相 
同 服务 的 连接 中 ， 与 当前 连接 具有 不 同 源 主机 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(38) dst_ host serror rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 
出 现 SYN 错误 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(39) dst host srv_serror rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 相 同 
服务 的 连接 中 ， 出 现 SYN 错误 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(40) dst_host_rerror rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 
出 现 REJ 错误 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(41) dst_host_srv_rerror rate: 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 、 相 同 
服务 的 连接 中 ， 出 现 REJ 错误 的 连接 所 占 的 百分比 ， 数 值 类 型 。 

(42) label: 连接 类 别 ， 离 散 类 型 。 包 括 : back.、teardrop.、loadmodule.、neptune.、 
rootkit. 、phf. 、satan. 、buffer overflow. 、ftp_write. 、land. 、spy. 、ipsweep. 、multihop.、 


smurf. 、pod. 、Pperl. 、 warezclient  、nmap. 、imap. 、 warezmaster. 、portsweep. 、normal. 和 


guess passwd.。 


9.2.3 ”挖掘 详细 过 程 
本 节 介绍 应 用 Weka 对 KDD Cup 1999 数据 集 进 行 挖 掘 的 详细 过 程 。 


1. 预 处 理 


KDD Cup 1999 数据 集 已 经 完成 了 收集 初始 数据 、 描 述 数据 的 耗 时 过 程 ， 其 数据 集 已 
经 较为 适合 挖掘 ， 所 需 的 预 处 理 仅 仅 是 将 原 数据 集 文件 变 为 ARFF 格式 ， 对 目标 属性 进行 
数据 变换 操作 、 属 性 选择 等 。 

先 使 用 压缩 工具 将 kddcup.data 10 percent.gz 解压 缩 ， 将 数据 文件 重 命 名 为 
kddcup.data_10_percent_corrected.arff。 然 后 使 用 EmEditor 工具 打开 该 文件 ， 在 文件 起 始 位 
置 添加 如 程序 清单 9.1 所 示 的 文件 头 。 


程序 清单 9.1 添加 的 ARFF 文件 头 


Qrelation kdd cup 1999 10percent 

Q@attribute duration numeric 

Q@attribute protocol type {tcp、 udp,icmp} 

Qattribute service 

{vmnet, smtp, ntp_u, shell, kshell,aol, imap4, urh i,netbios ssn,tftp u,mtp,uucp,nnsp 
recho, tim i, ssh,iso tsap,time,netbios ns,systat,hostnames, login,efs, supdup, http 
_8001, courier, ctf, finger, nntp, ftp_data, red i,1dap,http, ftp,pm dump,exec, klogin, 
auth, netbios dgm, other, link, X11, discard, private, remote job, IRC, daytime,pop_3,po 
Pp_2,gopher, sunrpc, name, rje, domain, uucp path,http 2784,239 50,domain u,csnet ns, 
whois,eco i,bgp,sql net,printer, telnet,ecr i,urp i,netstat,http 443,harvest} 
@attribute flag {RSTR,S3,SF,RSTO,SH,OTH,S2,RSTOSO,S1,S0,REJ} 

Qattribute src bytes numeric 

Qattribute dst bytes numeric 

@attribute land {1,0} 

Qattribute wrong fragment numeric 

@attribute urgent numeric 

@attribute hot numeric 

Q@attribute num failed logins numeric 

Q@attribute logged in {1,0} 

@attribute num compromised numeric 

@attribute root shell {1,0} 

@attribute su attempted {1,0} 

Q@attribute num root numeric 

Q@attribute num file creations numeric 

@attribute num shells numeric 

Qattribute num access files numeric 

Qattribute num outbound cmds numeric 

Qattribute is host login {1,0} 

@attribute is guest login {1,0} 

Q@attribute count numeric 

Qattribute srv count numeric 

@attribute serror rate numeric 

Q@attribute srv_ serror rate numeric 

Q@attribute rerror rate numeric 

Q@attribute srv rerror rate numeric 

Q@attribute same srv rate numeric 

Q@attribute diff srv rate numeric 

@attribute srv diff host rate numeric 
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@attribute dst host count numeric 

@attribute dst host srv count numeric 

@attribute dst host same srv rate numeric 

@attribute dst host diff srv rate numeric 

@attribute dst host same src port rate numeric 

Q@attribute dst host srv diff host rate numeric 

@attribute dst host serror rate numeric 

Qattribute dst host srv serror rate numeric 

Qattribute dst host rerror rate numeric 

Qattribute dst host srv rerror rate numeric 

Qattribute label 

{back., teardrop., 10admodule., neptune., rootkit.,phf., satan. rbuffer overflow.,ft 
Pp_write., land., spy.,ipsweep.,multihop., smurf. ,pod. ,perl.,warezclient., nmap., im 
ap.,warezmaster.,portsweep.,normal.,guess passwd.} 

@data 


为 了 验证 添加 的 文件 头 是 否 正确 ， 最 好 使 用 Weka 加 载 处 理 好 的 数据 集 文 件 。 如 果 
Weka 不 报错 误 ， 说 明文 件 格式 转换 正确 ， 如 图 9.3 所 示 。 


Preprocess Classify | cluster | Associnte | select attributes | Visualize | Forecast 


Open 1 Generate. 


Filter 
| Choose None 
Current relation 

Relution: kdd_cup_1999_10percent Attributes; 42 Type: Hominal 
Instunces: 494021 Sum of weights: 494021 Missing: 0 (OW) Distinet: 23 Uniqae: 0 (ON) 
Mttribetes | Label Veight 
buck 22 2203.0 
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[| S|neptune FE 107201.0 
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从 程序 清单 9.1 可 以 看 到 ， 要 预测 的 目标 属性 共有 23 种 取 值 ， 而 我 们 主要 关注 的 是 ， 
每 个 样本 到 底 是 异常 类 型 还 是 正常 类 型 。 由 于 异常 类 型 又 细 分 为 4 种 攻击 类 型 ， 因 此 本 预 
测 任 务 的 实质 是 5 元 (1 种 正常 类 型 加 上 4 种 攻击 类 型 ) 分 类 问题 。 

下 面 使 用 Weka 过 滤器 对 数据 集 的 目标 属性 进行 处 理 ， 将 23 种 取 值 合并 缩减 为 5 种 
取 值 。 

在 Weka 探索 者 界面 中 ， 切 换 至 Preprocess 标签 页 ， 在 左 部 的 Attributes 选项 组 中 选择 
label 属性 ， 观 察 右 部 的 Selected attribute 选项 组 ， 一 共有 23 个 属性 取 值 ， 如 图 9.3 所 示 。 


然后 对 照 表 9.1， 找 到 DoS 异常 类 型 所 属 的 攻击 类 型 (Label 列 ) 对 应 的 编号 No. 列 )， 如 果 足 
够 仔细 ， 找 到 的 编号 一 定 是 1,2,4,10,14.15。 

下 面 将 这 6 种 攻击 类 型 合并 为 DoS 类 型 ， 适 合 完成 这 个 工作 的 是 无 监督 的 属性 过 滤器 
MergeManyValues。 单 击 Choose 按钮 ， 选 择 MergeManyValues 过 滤器 ， 再 单 击 Choose 按 
钮 右边 的 文本 框 ， 打 开通 用 对 象 编辑 器 以 设置 过 滤器 属性 ， 将 label 属性 设置 为 D， 将 
mergeValueRange 属性 设置 为 “1,2,4.10,14,15”， 如 图 9.4 所 示 。 


ake filters. wnsupervised attribute MeredlanyValues 


About 
Merges many values of a nominal attribute into one value. 


attributeIndex [last 

debug Jalse 

dollotCheckCapabilities [False 
lubel |D 


mergsValusRange |1,2.410,14.15 


Open Ser 


9.4 设置 MergeManyValues 过 滤器 
单 击 OK 按钮 关闭 通用 对 象 编辑 器 ， 注 意 到 过 滤器 命令 一 定 是 : 


MergeManyValues -C last -L D -R 1,2,4,10,14,15 

将 图 9.3 所 示 窗 口 右边 的 下 拉 列 表 框 设置 为 No class 选项 ， 以 避免 出 现 无 法 处 理 类 别 
属性 的 错误 ， 然 后 单 击 Apply 按钮 应 用 该 过 滤器 。 

按照 上 述 方式 依次 处 理 另外 3 种 异常 类 型 ， 为 方便 对 照 ， 提 供 表 9.2 供 参考 。 


表 9.2 合并 多 值 过 滤器 参数 


合并 值 范围 
mergeValueRange, 
1,2,5,10 


1,3,4,6,7,9,10,13 


最 后 ， 使 用 RenameNominalValues 无 监督 属性 过 滤器 ， 将 正常 类 型 nomal. 重 命名 为 
N， 命 令 为 : 


RenameNominalValues -R last -N normal. :N 


完成 预 处 理 后 的 界面 如 图 9.5 所 示 。 
为 了 方便 将 来 使 有 用， 强烈 建议 将 预 处 理 后 的 数据 集 另 存 为 
kddcup.data_10 _ percent_ corrected 5classes.arff 文件。 


标号 (label) 


MergeManyValues -C last -L U -R 1.2.5.10 
MergeManyValues -C last -L R -R 1.3.4.6.7.9.10.13 
MergeManyValues -C last -LP -R 1.2.3.4 
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9.5 “完成 预 处 理 后 的 界面 
2. 使 用 Weka 探索 者 界面 进行 挖掘 


在 Weka 探索 者 界面 中 ， 加 载 kddcup.data_10_percent _ corrected_Sclasses.arff 文件 ， 切 
换 至 Classify 标签 页 ， 选 择 J48 分 类 器 ， 保 持 默 认 参 数 不 变 ， 并 使 用 默认 的 十 折 交 叉 验 
证 ， 单 击 Start 按钮 启动 分 类 。 耐 心 等 待 一 段 时 间 后 ， 得 到 如 图 9.6 所 示 的 运行 结果 。 


FRR FREE ER 


classifier output 


一 Stratified cross-validation 一 
一 Sumary 一 


Correctly Classified Instances 493861 99.9676 § 
Incorrectly Classified Instances 160 0.0324 二 
Kappa statistic 0.999 
Mean absolute error 0.0002 
hee) lebel | |Root mean squared error 0.0113 

Relative absolute error 0.1431 & 


[ Root relative squared error .3638 二 


Start Stop 


rR Coverage of cases (0.95 level) 39.9725 二 
Result list (right-elick fer opt |Mean rel. region size (0.95 level) 20.0094 
Toral Nunber of Instances 434021 


< 


图 9.6 J48 分 类 器 的 运行 结果 


从 结果 上 看 ， 分 类 准确 度 为 99.9676%， 效 果 非 常 不 错 。 用 当今 的 技术 去 完成 15 年 前 
的 竞赛 ， 感 觉 很 容易 。 

以 上 只 是 将 数据 集 目标 属性 做 了 合并 缩减 处 理 ， 并 没有 对 原始 数据 集 进行 更 多 的 预 处 
理 操 作 。 如 果 只 是 完成 单一 分 类 器 算法 的 学 习 ， 这 并 不 会 产生 什么 问题 。 但 是 ， 如 果 要 比 
较 多 种 分 类 器 算法 的 性 能 ， 尤 其 是 集成 学 习 算 法 ， 由 于 要 进行 若干 次 反复 的 训练 和 验证 ， 
因此 会 花费 更 多 的 时 间 ， 显 然 预 先进 行 属性 选择 会 大 大 节省 实验 时 间 。 


在 Weka 探索 者 界面 中 ， 切 换 至 Select attributes 标签 页 ， 选 择 CorrelationAttributeEval 
作为 属性 评估 器 ， 这 是 通过 计算 皮尔 森 相 关系 数 来 估计 属性 重要 程度 的 方法 ， 然 后 选择 
Ranker 作为 搜索 方法 ， 保 持 默认 参数 不 变 ， 单 击 Start 按钮 开始 属性 选择 ， 结 果 如 图 9.7 所 
示 。 可 以 看 到 ，20 lnum outbound cmds 和 21 is_host login 这 两 个 属性 与 类 别 属性 根本 不 
相关 ， 其 相关 系数 为 0。 因此， 去 掉 这 两 个 属性 ， 不 会 降低 分 类 准确 度 ， 读 者 可 自行 验证 。 
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9.7 ”CorrelationAttributeEval 属性 选择 结果 


下 面 使 用 GainRatioAttributeEval 进行 属性 选择 ， 还 是 使 用 Ranker 作为 搜索 方法 ， 保 
持 默 认 参 数 不 变 ， 得 到 的 结果 如 图 9.8 所 示 。 


| Preprocess | Classify | Cluster | Associate| Select artributes Visualize 
Attribute Evalaater 
ss JovinRatioAttributeEral 


1 
[Ramker -T -1 7976901349625157E308 -8 -1 


Attribute Selertion lode Mttribute selsction output 

@ Vee full training set 110 33 dat_host_srv_count 
0.108 39 dat_ host arv serrcr_rate 

Orvalition molds fo] | 1042 34 dsrhost_sane arv race 

0.0993 。 30 diff_srv_ ra 

0.0971 。 26 srv_serror_ rate 

0.0825 4 flag 

0.0779 41 dat hoat arv rerrcr_rare 

0.0755 40 dat_host_ rerror rate 

0.0733 29 same_srv race 

0.0711 27 rerror_rare 


0.0457 。 13 lnum compromised 
0.0406 。 28 srv_rerror rate 
0.0333 。 evreng_zragmerc 
dySteprise + CfxSubsetky| | 0.0101 。 7 land 


sdySteywise + frarperSvls | 0 20 In puchound ends 


FE | 21 ia hosr_login 
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图 9.8 GainRatioAttributeEval 属性 选择 结果 
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为 了 方便 对 照 ， 将 属性 排名 结果 列 示 如 下 : 

Selected attributes: 12,11,6,14,22,9,37,3,32,31,5,2,1,17,23,36,16,18,19,10,15, 

24, 38, 35, 25, 33, 39, 34, 30, 26, 4, 41, 40, 29,27,13,28,8,7,20,21 : 41 

得 到 排名 结果 后 ， 使 用 Remove 过 滤器 移 除 排名 靠 后 的 属性 。 首 先 移 除 最 后 10 个 属 
性 ， 过 滤 命 令 为 : 

Remove -R 41,40,29,27,13,28,8,7,20,21 

再 次 运行 148 分 类 器 ， 运 行 结果 如 图 9.9 所 示 。 可 以 看 到 ， 经 过 属性 选择 ， 分 类 准确 
度 从 原来 的 99.9676% 提 升 至 99.9717%。 虽 然 这 里 绝对 百 分 值 差别 不 大 ， 但 考虑 到 基数 已 
经 很 大 ， 因 此 效果 相当 明显 。 


39.9717 $ 
0.0283 § 


Derailed Accuracy By Class ~ 


TP Rate FP Rare Frecision 
1.000 。 0.000 
1.000 。 0.000 
0.577 0.000 
0.968 。 0.000 
0.994 0.000 0. 0.994 


9.9 ” 移 除 最 后 10 个 属性 后 J48 分 类 器 的 运行 结果 


读者 可 自行 尝试 移 除 更 多 或 更 少 的 属性 ， 或 者 尝试 其 他 属性 选择 方法 ， 选 择 出 更 优 的 
属性 组 合 。 


3. 使 用 Weka 实验 者 界面 进行 挖掘 


前 面 使 用 的 10% 数 据 集 共 有 约 49.4 万 个 样本 ,一般 的 PC 机 处 理 起 来 已 经 有 点 难度 ， 
但 还 远 不 能 称 之 为 大 数据 。 为 了 增加 难度 ， 下 面 使 用 Weka 实验 者 界面 挖掘 超过 100 万 个 
样本 的 数据 集 ， 将 J48 决策 树 算法 作为 基准 ， 比 较 AdaBoostM1 算法 和 Bagging 算法 哪个 
效果 更 好 。 

首先 进行 预 处 理 ， 要 将 100% 的 数据 集 加 载 到 Weka 中 。 这 要 求 计算 机 的 内 存 足 够 大 ， 
要 将 Weka 使 用 的 堆 空 间 设 为 SGB 以 上 才能 将 数据 集 加 载 进 Weka 探索 者 中 。 按 照 前 面 对 
10% 数 据 集 的 预 处 理 方式 ， 解 压 kddcup.data.gz 压缩 文件 并 进行 预 处 理 ， 将 处 理 后 的 数据 另 
存 为 kddcup.data.corrected.5classes.arff。 然 后 ， 使 用 无 监督 的 Resample 实例 过 滤器 ， 将 
sampleSizePercent 设 为 20.42， 将 noReplacement 设 为 True， 无 放 回 抽样 出 1000259( 超 过 


100 万 ) 个 样本 。 接 着 ， 使 用 Remove 过 滤器 移 除 排名 靠 后 的 10 个 属性 ， 命 令 如 下 : 


Remove -R 41,40,29,27,13,28,8,7,20,21 


然后 ， 使 用 如 下 MergeManyValues 过 滤器 命令 将 类 别 属性 二 元 化 : 


MergeManyValues -C last -LA -R 2-5 


上 述 命令 将 第 2 种 至 第 5 种 攻击 类 型 全 部 归并 为 一 种 ， 并 命名 为 A， 这 样 ， 类 别 属性 
只 有 两 种 取 值 : N 表示 正常 ，A 表示 攻击 。 

最 后 ， 将 处 理 后 的 数据 另存 为 kddcup.data.corrected.binary.arff。 

由 于 单 台 计算 机 处 理 100 万 个 样本 十 分 困难 ， 费 时 相当 长 ， 建 议 尽量 使 用 内 存 配置 较 
高 的 多 台 计 算 机 联网 并 行 处 理 。 按 照 4.3 节 的 内 容 设置 远程 实验 环境 ， 将 预 处 理 好 的 
kddcup.data.corrected.binary.arff 文件 复制 到 datasets 子 目录 中 。 

修改 startRemoteEngine.bat 文件 ， 为 每 个 远程 引擎 分 配 2GB 内 存 。 可 参考 以 下 命令 : 

@echo off 

java -Xmx2048m -classpath ../db drivers/mysql-connector-java— 

5.1.6.jar;remoteEgngine.jar;C:/Weka-3-7/weka.jar — 

Djava.security.policy=remote.policy weka.experiment .RemoteEngine 

按照 相同 方式 ， 修 改 startRemoteEnginel.bat、startRemoteEngine2.bat 等 批 处 理 文件 。 

大 致 计算 一 下 每 台 计 算 机 可 以 启动 的 远程 引擎 数量 。 一 般 双 核 四 线程 CPU 可 以 启动 
的 引擎 数 小 于 等 于 四 个 ， 如 果 内 存 不 足 ， 只 能 启动 更 少 的 引擎 。 例 如 ，8GB 内 存 最 多 只 能 
启动 三 个 引擎 ， 因 为 每 个 引擎 耗费 2GB 内 存 ， 一 共 耗 费 6G6B， 只 剩 2GB 供 操作 系统 使 
用 ， 非 常 紧 张 。 

根据 自己 能 够 使 用 的 计算 资源 ， 双 击 bat 文件 启动 不 同 数量 的 远程 引擎 。 然 后 ， 双 和 
startExperimenter.bat 文件 启动 实验 者 界面 。 

为 了 方便 设置 ， 保 持 实验 配置 模式 为 Simple， 单 击 New 按钮 新 建 实验 ， 在 Results 
Destination 选项 组 中 选择 JDBC database 选项 ， 然 后 单 击 User 按钮 ， 填 写 数据 库 URL、 数 
据 库 用 户 名 和 密码 。 将 Iteration Control 选项 组 中 的 Number of repetitions 由 默认 的 10 次 修 
改 为 5 次 ， 这 样 减少 一 半 的 运行 时 间 。 然 后 选中 Datasets 选项 组 中 的 Use relative 复 选 框 ， 
并 单 击 Add new 按钮 ， 选 中 datasets 子 目录 中 的 kddcup.data.corrected.binary.arff 文件 。 最 
后 ， 在 Algorithms 选项 组 中 单 击 Add new 按钮 ， 选 择 J48、AdaBoostM1 和 Bagging 分 类 算 
法 ， 将 AdaBoostM1 和 Bagging 的 classifier 都 设 为 J48， 最 终 的 设置 如 图 9.10 所 示 。 

在 Experiment Configuration Mode 下 拉 列 表 框 中 选择 Advanced 选项 ， 切 换 至 高 级 模 
式 。 选 中 Distribute experiment 选项 组 中 的 复 选 框 ， 激 活 Hosts 按钮 。 单 击 Hosts 按钮 ， 设 
置 进行 分 布 式 计算 的 主机 ， 这 里 需要 根据 自己 的 计算 资源 进行 设置 。 本 次 实验 只 有 一 个 数 
据 集 ， 可 以 按照 运行 来 划分 ， 因 此 选中 By run 单 选 按钮 。 设 置 好 的 界面 如 图 9.11 所 示 。 

现在 已 经 完成 实验 设置 ， 切 换 至 Run 标签 页 ， 单 击 Start 按钮 启动 实验 。 在 Log 选项 
组 中 会 显示 分 配子 实验 的 进展 ， 同 时 在 两 台 主 机 的 远程 引擎 中 会 显示 实验 进程 的 详细 信 
息 。 根 据 自己 投入 的 实验 设备 ， 实 验 至 少 运行 数 个 小 时 ， 甚 至 十 几 个 小 时 。 

下 面 来 分 析 实验 结果 。 切 换 至 Analyse 标签 页 ， 单 击 Database 按钮 并 输入 数据 库 
URL、 用 户 名 和 密码 ， 稍 等 片刻 后 ， 实 验 者 界面 中 导入 150 条 实验 结果 。 在 Comparison 
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field 下 拉 列 表 框 中 选择 Number_correct 选项 ， 保 持 其 他 参数 不 变 ， 单 击 Perform test 按 
钮 ，Test output 选项 组 中 显示 测试 结果 ， 如 图 9.12 所 示 。 
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图 9.10 简单 模式 设置 


Sotap [um | hanlyse| 
Experinert Configuretion Node [dvanced] v 


[ Don 

Destination 

| Choose |DatobaseResultListener 
Besult gsnerater 
| Choose |CrossValidationResultProducer -X 10 -0 splitEvdutorDut zip 2 veka experinent. CLassiderSplitEyduator 一 | 
Rms 


Distribute experimert 
ron: | 10: 6 


Generator properties 
Ta 


v Selee erty. 
OW dat set @ly rm ms 


OO cuatom generator firat 


EE 
[Adaboosthl ~P 100 -3 1 -1 10 # weke ol 
Bagcing - 100 -5 1 oslots 1 工 10 


图 9.11 分 布 式 实验 设置 


可 以 看 到 ，AdaBoostM1 的 效果 最 好 ，Bagging 次 之 ，J48 最 差 。 总 体 而 言 ， 三 个 分 类 
器 的 效果 都 很 好 ， 差 别 非常 小 ， 如 果 使 用 分 类 正确 率 指标 ， 则 无 法 分 辨 48 和 Bagging 的 
区 别 。 


读者 可 尝试 处 理 更 大 的 数据 ， 比 如 不 经 过 抽样 的 100% 数 据 ， 为 自己 将 来 挖掘 实际 的 
大 数据 做 好 技术 储备 。 
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图 9.12 ”实验 结果 
9.3 实战 KDD Cup 2010 


KDD Cup 2010 竞赛 于 2010 年 4 月 19 日 至 6 月 8 日 举行 竞赛 主题 是 教育 数据 挖 
掘 。 主 要 内 容 是 根据 学 生 使 用 智能 导 学 系统 (Intelligent Tutoring Systems，ITS) 进 行 数学 学 
习 的 交互 日 志 ， 来 预测 学 生 是 否 能 够 正确 完成 某 道 数学 题 。 

竞赛 网 址 为 http://pslcdatashop.web.cmu.edu/KDDCup/。 该 网 址 提供 竞赛 描述 、 竞 赛 规 
则 、 竞 赛 结果 和 数据 集 下 载 。 


9.3.1 任务 描述 


竞赛 开始 时 ， 竞 赛 组 织 者 将 提供 五 个 数据 集 : 三 个 开发 数据 集 (development data sets) 
和 两 个 挑战 数据 集 (challenge data sets)。 每 个 数据 集 都 分 为 训练 部 分 (training portion) 和 测试 
部 分 (test portion)。 在 开发 数据 集中 ， 学 生 是 否 答对 的 标签 (performance labels) 都 是 可 见 
的 ， 但 在 挑战 数据 集 的 测试 部 分 中 ， 已 经 将 学 生 是 否 答对 的 标签 隐藏 起 来 。 竞 赛 任务 要 求 
开发 出 一 种 基于 挑战 或 开发 数据 集 的 学 习 模型 ， 使 用 该 算法 通过 从 挑战 数据 集中 的 训练 部 
分 进行 学 习 ， 然 后 准确 预测 学 生 在 测试 部 分 的 表现 。 竞 赛 最 终 的 优胜 者 取决 于 他 们 的 模型 
在 挑战 测试 集中 不 可 见 部 分 的 表现 。 最 终 成 绩 以 各 队 最 后 一 次 提交 的 挑战 数据 集 为 准 。 


9.3.2 ”数据 集 描述 


KDD Cup 2010 提供 如 表 9.3 所 示 的 三 个 开发 数据 集 。 提 供 开 发 数据 集 仅 仅 是 为 了 让 参 
赛 者 熟悉 数据 格式 和 开发 学 习 模型 ， 参 赛 者 自行 决定 是 否 使 用 这 些 数据 集 ， 其 预测 结果 不 
会 计 入 比赛 成 绩 ， 不 影响 决 出 比赛 优胜 者 。 
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表 9.3 开发 数据 集 


数据 集 步骤 数 文件 名 
Algebra I 2005—2006 813661 algebra 2005 2006.zip 


Algebra I 2006 一 2007 2289726 algebra_ 2006 2007.zip 


Bridge to Algebra 2006 一 2007 3656871 bridge_ to algebra 2006 2007.zip 


挑战 数据 集 如 表 9.4 所 示 ， 预 测 结果 将 直接 确定 竞赛 优胜 者 。 要 求 参赛 者 对 这 两 个 数 
据 集 的 一 个 步骤 子 集 ( 测 试 集 ) 提 供 预测 ， 预 测 数据 集 的 “第 一 次 尝试 正确 ”(Correct First 
Attempt) 列 。 


表 9.4 挑战 数据 集 


Algebra I 2008—2009 3310 9426966 | algebra 2008 2009.zip 


Bridge to Algebra 2008 一 2009 20768884 bridge to_algebra 2008 2009.zip 


上 述 数据 集 都 是 学 生 在 计算 机 辅助 导 学 系统 (其 名 称 分 别 为 Algebra I 和 Bridge to 
Algebra) 中 的 学 习 记录 。 学 生 解 答 导 学 系统 中 的 问题 ， 每 次 人 机 交互 都 以 日 志方 式 记 录 下 
来 。 挑 战 数据 集 分 为 Algebra I 2008 一 2009 和 Bridge to Algebra 2008 一 2009 两 种 ， 本 书 分 
别 简称 为 A89 和 B89，A89 的 属性 数目 有 22 个 ，B89 有 20 个 ， 但 是 B89 的 数据 集 更 大 、 
更 具有 挑战 性 ， 因 此 本 书 选择 B89 数据 集 作 为 实验 对 象 。 

bridge_to_algebra 2008_2009.zip 压缩 文件 的 大 小 为 439MB， 包 含 三 个 txt 文件 ， 其 中 
bridge_to_algebra_2008_2009_train.txt 文件 为 训练 集 ， 大 小 为 5.29GB， 共 有 20012498 条 记 
录 ; bridge_to_algebra 2008_2009_test.txt 文件 为 测试 集 ， 大 小 为 131MB， 共 有 756386 条 
记录 ; bridge_to_algebra_ 2008_2009_submission.txt 文件 为 要 提交 的 文件 ， 大 小 为 7.82MB， 
共有 756386 条 记录 ， 只 包括 Row 和 Correct First Attempt 两 个 属性 。 

在 教育 挖掘 数据 集中 ， 以 下 几 个 关键 术语 非常 重要 ， 深 入 理解 这 些 术语 才能 有 效 利用 
领域 知识 ， 更 好 地 挖掘 数据 。 

(1) Problem( 问 题 ): 问题 就 是 某 个 学 生 需 要 完成 的 任务 ， 通 常 一 个 问题 包含 多 个 步 
又 。 在 语言 领域 ， 通 常 将 这 些 任务 称 为 活动 或 练习 ， 而 非 问题 。 例 如 ， 一 种 语言 活动 可 能 
包括 发 现 和 纠正 一 个 段落 中 所 有 的 语法 错误 。 

(2) Step( 步 骤 ): 步骤 是 解答 某 个 问题 的 一 部 分 。 步 骤 是 可 观察 的 ， 学 生 利用 用 户 接 
来 解答 问题 。 一 个 问题 包括 若干 步骤 ， 整 个 步骤 的 集合 共同 构成 解决 方案 。 一 般 认 为 最 后 
一 个 步骤 是 “最 终 答 案 ”， 而 其 他 则 是 “中 间 ” 步 又。 学 生 可 能 无 法 通过 正确 步 又 正确 解 
答 某 个 问题 ， 学 生 可 能 会 要 求 导 学 系统 提示 ， 或 者 输入 错误 答案 。 术 语 Transaction( 事 务 ) 
是 指 学 生 与 导 学 系统 的 一 次 交互 行为 。 每 一 次 请 求 提示 、 错 误 尝 试 或 正确 尝试 都 是 一 个 事 
务 ， 且 每 一 个 事务 都 记录 在 日 志 中 。Corect First Attempt 记录 学 生 是 否 第 一 次 解答 正确 ， 
其 值 为 1 表示 没有 请 求 提 示 且 错误 尝试 次 数 为 0， 否则 为 0。 

(3) Knowledge Component( 知 识 组 件 ): 一 个 知识 组 件 (或 许 还 与 其 他 知识 组 件 一 道 ) 是 
一 些 可 用 于 完成 任务 的 信息 。 知 识 组 件 是 日 常 术语 中 的 概念 、 原 理 、 事 实 或 者 技能 ， 也 是 
诸如 模式 、 产 生 式 规则 、 误 解 或 事物 方面 的 认 知 科学 术语 。 问 题 的 每 一 步 都 需要 学 生 了 解 


某 个 相关 概念 或 技能 ， 才 能 正确 解答 该 步骤 。 例 如 ， 在 给 定 的 数据 集中 ， 每 个 步骤 都 可 以 
标记 为 解答 该 步骤 所 需 的 一 个 或 多 个 假定 的 知识 组 件 。 每 个 知识 组 件 都 与 一 个 或 多 个 步骤 
相关 联 ， 每 个 步骤 都 可 以 与 一 个 或 多 个 知识 组 件 相 关联 。 这 种 关联 通常 由 问题 作者 作 原 始 
定义 ， 但 研究 人 员 可 以 提供 与 步骤 关联 的 替代 性 的 知识 组 件 ， 这 些 合 称 为 知识 组 件 模型 
(Knowledge Component Model)。 

(4) Opportunity( 机 会 ): 一 个 Opportunity 是 特定 学 生 证 明 他 已 经 学 会 了 某 个 给 定 知识 
组 件 的 一 次 机 会 。 学 生 每 一 次 遇 到 一 个 需要 某 知识 组 件 的 步骤 ， 该 学 生 的 Opportunity 计数 
会 为 给 定 的 知识 组 件 增加 1。 机 会 既是 一 个 学 生 是 否 掌握 某 个 知识 组 件 的 测试 ， 也 是 一 个 
学 生 的 学 习 机 会 。 虽 然 学 生 可 能 会 对 一 个 步骤 进行 多 次 尝试 ， 或 请 求 导 学 系统 的 提示 (这 些 
都 是 事务 )， 全 部 的 尝试 都 会 认定 为 是 一 个 单个 机 会 。 当 学 生 练习 一 遍 问题 的 所 有 步骤 ， 他 
将 有 多 次 机 会 应 用 或 学 习 相 关 知 识 组 件 。 

B89 训练 集 和 测试 集 文件 都 有 20 个 属性 和 1 个 目标 属性 ， 各 属性 之 间 使 用 制 表 符 (Tab) 
进行 分 割 ， 其 含义 说 明 如 下 。 

(1) Row( 行 号 ): 对 于 挑战 数据 集 ， 行 号 不 是 从 原始 数据 集 文件 中 直接 得 到 的 ， 而 是 在 
每 个 文件 中 对 行 重新 编号 。 

(2) Anon Student Id( 学 生 匿名 标识 符 ): 每 个 学 生 都 有 唯一 的 匿名 标识 符 。 

(3) Problem Hierarchy( 问 题 层次 )， 问题 包含 的 课程 水 平 层次 结构 。 由 单元 (Unit) 名 称 和 
章节 (Section) 名 称 组 成 ， 两 部 分 中 间 用 逗号 分 隔 。 

(4) Problem Name( 问 题名 称 ): 问题 的 唯一 标识 符 。 

(5) Problem View( 遇 到 问题 次 数 )， 到 目前 为 止 ， 学 生 遇 到 该 问题 的 总 次 数 。 

(6) Step Name( 步 又 名 称 ): 每 个 问题 由 一 个 或 多 个 步骤 构成 。 在 每 一 个 问题 内 ， 步 又 
名 称 是 唯一 的 ， 但 不 同 问题 之 间 可 能 会 有 步骤 名 称 的 冲突 。 因 此 ， 一 个 步骤 唯一 的 标识 符 
应 该 是 问题 名 称 和 步骤 名 称 的 组 合 。 

(7) Step Start Time( 步 又 开始 时 间 ): 该 步骤 的 起 始 时 间 。 可 以 为 空 (null)。 

(8) First Transaction Time( 第 一 次 事务 时 间 ): 步骤 第 一 次 事务 的 时 间 。 

(9) Correct Transaction Time( 正 确 的 事务 时 间 ): 步骤 中 尝试 正确 的 时 间 ， 如 果 有 的 话 。 

(10) Step End Time( 步 又 结束 时 间 ): 步骤 最 后 一 个 事务 的 时 间 。 

(11) Step Duration(sec)( 步 又 持续 时 间 ， 单 位 为 秒 ): 一 个 步骤 以 秒 为 单位 的 持续 时 间 ， 
通过 将 一 个 步骤 中 的 所 有 事务 的 时 间 相 加 计算 而 得 。 可 以 为 空 (如 果 步 又 开始 时 间 为 空 )。 

(12) Correct Step Duration(sec)( 正 确 步 又 的 持续 时 间 ， 单 位 为 秒 ): 如 果 第 一 次 尝试 正 
确 ， 步 又 的 持续 时 间 。 

(13) Error Step Duration(sec)( 错 误 步 又 的 持续 时 间 ， 单 位 为 秒 ): 如 果 第 一 次 尝试 错误 
(错误 尝试 或 请 求 提 示 都 记 为 错误 )， 步 又 的 持续 时 间 。 

(14) Correct First Attempt( 第 一 次 尝试 正确 ): 导 学 系统 对 学 生 在 一 个 步骤 中 第 一 次 党 
试 的 评价 ， 如 果 正 确 则 为 1， 错误 则 为 0。 

(15) Incorrects( 错 误 总 数 ): 学 生 在 一 个 步骤 中 尝试 错误 的 总 数 。 

(16) Hints( 提 示 总 数 ): 学 生 在 一 个 步骤 中 请 求 提示 的 总 数 。 

(17) Corrects( 正 确 总 数 ): 学 生 在 一 个 步骤 中 正确 尝试 的 总 数 。 只 有 在 该 步 又 遇 到 不 目 
一 次 时 才 会 增加 。 

(18) KC(SubSkills)(KC 子 技能 ): 用 于 问题 的 特定 技能 ， 如 果 有 的 话 。 一 个 步骤 可 以 有 多 
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个 KC(Knowledge Component， 知 识 组 件 )， 多 个 KC 之 间 使 用 “一 ”( 两 个 波浪 字符 ) 进 行 分 
割 。 由 于 KC 使 用 机 会 (Opportunity) 来 描述 实践 ， 相 应 的 机 会 也 同样 使 用 “一 ”进行 分 割 。 

(19) Opportunity(SubSkills)( 子 技能 机 会 ): 当 学 生 每 次 遇 到 列表 中 的 一 个 KC 时 ， 该 计 
数值 加 1。 拥 有 多 个 KC 的 步 又， 对 应 的 多 个 机 会 表示 为 用 “一 ”分 割 的 数值 。 

(20) KC(KTracedSkills)(KC 知识 追踪 技能 ): 该 知识 组 件 用 于 智能 导 学 系统 (ITS)， 格 
式 与 KC(SubSkills) 一 致 。 

(21) Opportunity(KTracedSkills)( 知 识 追 踪 技 能 机 会 ): 格式 与 Opportunity(SubSkills) 一 
致 ， 只 是 针对 KC(KTracedSkills) 知 识 组 件 的 计数 。 

挑战 数据 集 的 训练 部 分 提供 所 有 值 ， 但 测试 部 分 没有 提供 如 下 属性 的 值 : Step Start 
Time 、 First Transaction Time 、 Correct Transaction Time 、Step End Time 、 Step 
Duration(sec)、 Correct Step Duration(sec)、 Error Step Duration(sec)、Correct First Attempt、 
Incorrects、Hints 和 Corrects。 其 原因 是 ，Correct First Attempt 是 要 预测 的 答案 ， 当 然 不 能 
提供 ， 如 果 提 供 除 Correct First Attempt 以 外 的 其 他 上 述 值 ， 几 乎 可 以 直接 推断 出 答案 。 例 
如 ， 如 果 Hints 不 为 0， 说 明 学 生 已 经 请 求 提 示 ，Correct First Attempt 肯定 为 0。 因此 没有 
提供 这 些 值 。 


9.3.3 ”挖掘 详细 过 程 


下 面 的 挖掘 方法 借鉴 伊朗 学 生 Yasser Tabandeh 和 Ashkan Sami 的 论文 Classification of 
Tutor System Logs with High Categorical Features， 这 两 个 学 生 组 成 的 团队 Y10 使 用 有 限 的 
计算 设备 ， 取 得 了 竞赛 学 生 组 第 4 名 和 全 体 组 第 15 名 的 好 成 绩 。 

以 下 详细 叙述 Y10 团队 的 挖掘 方法 和 过 程 。 


1. 预 处 理 


B89 的 数据 文件 非常 大 ， 训 练 文件 有 5.29GB， 因 此 几乎 不 可 能 一 次 加 载 到 普通 配置 的 
计算 机 的 内 存 中 ， 即 便 能 够 加 载 ， 也 不 可 能 直接 使 用 分 类 器 进行 学 习 和 预测 。 因 此 ， 合 理 
的 手段 是 首先 进行 预 处 理 ， 抽 取出 适合 挖掘 的 特征 ， 包 括 特征 选择 、 特 征 变换 ， 并 进行 二 
次 抽样 ， 降 低 数据 规模 ， 使 得 普通 计算 机 能 够 处 理 这些 数 据 。 

直接 使 用 Weka 过 滤器 对 如 此 大 的 数据 文件 进行 预 处 理 也 很 困难 ， 本 书 采用 的 方式 是 
利用 数据 库 系 统 数据 结构 化 且 统 一 管理 ， 查 询 迅速 、 准 确 的 优势 ， 编 写 非 过 程 化 语言 此 
SQL 语句 进行 预 处 理 。 

首先 ， 需 要 删除 一 些 用 处 不 大 的 属性 ， 然 后 将 数据 文件 导入 到 数据 库 中 ， 具 体 过 程 
如 下 。 

可 以 注意 到 ，Step Start Time、First Transaction Time、Correct Transaction Time、Step 
End Time 、Step Duration(sec) 、Correct Step Duration(sec) 、Error Step Duration(sec)、 
Incorrects、Hints 和 Corrects 这 10 个 属性 并 没有 在 测试 集中 出 现 ， 因 此 第 一 次 特征 选择 直 
接 将 这 些 属 性 删除 。 另 外 ， 也 一 并 删除 Problem Hierarchy 属性 ， 因 为 该 属性 包含 单元 名 称 
和 章节 名 称 信息 ， 完 全 依赖 于 Problem Name 属性 。 将 Problem Name 和 Step Name 两 个 属 
性 合并 为 一 个 名 为 ProblemStep 的 属性 ， 以 增加 建 模 的 准确 性 和 速度 。 

第 一 次 特征 选择 后 ， 剩 下 的 属性 有 Anon Student Id、ProblemStep、Problem View、 
KC(SubSkills) 、 Opportunity(SubSkills) 、KC(KTracedSkills) 、 Opportunity(KTracedSkills) 和 


Correct First Attempt， 一 共 8 个 属性 。 
第 二 次 特征 选择 使 用 Weka 探索 者 界面 中 的 Select attributes 标签 页 ， 使 用 贝 叶 斯 算法 
为 基 分 类 器 的 包装 器 方法 ， 对 部 分 数据 进行 测试 (过 程 略 )， 最 终 选择 出 来 的 有 如 下 4 个 属 
性 : Anon Student Id、ProblemStep、KC(KTracedSkills) 和 Correct First Attempt。 
还 注意 :。 以 上 的 讨论 并 没有 涉及 Row 属性 ， 由 于 行 号 不 能 为 分 类 提供 信息 ， 因 此 在 训 
练 分 类 器 之 前 肯定 需要 删除 ， 后 文 进行 预 处 理 时 暂时 保留 该 属性 只 是 为 了 方 
便 处 理 。 
下 面 利用 Navicat for MySQL 工具 将 bridge_to_ algebra 2008 2009_train.txt 文件 中 所 选 
择 的 部 分 属性 导入 到 数据 库 中 。 运 行 Navicat for MySQL 并 登录 数据 库 ， 选 择 目 标 数据 
库 ( 本 书 为 weka)， 单 击 工具 栏 中 的 “ 表 ” 按 钮 ， 然 后 单 击 “ 导 入 向 导 ” 按 钮 ， 会 弹出 如 
9.13 所 示 的 “导入 向 导 ” 窗 口 。 
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图 9.13 “导入 向 导 ” 窗 口 


保持 “导入 类 型 ”为 “文本 文件 (*.txt)” 选 项 ， 单 击 “ 下 一 步 ” 按 钮 。 在 步骤 2 中 ， 
单 击 “ 导 入 从 ”文本 框 右边 的 “...” 按 钮 ， 在 弹出 的 对 话 框 中 选择 bridge_to algebra_ 
2008_2009_train txt 文件 并 单 击 “ 下 一 步 ”按钮 。 

在 步骤 3 中 ， 选 择 “ 栏 位 分 隔 符 ” 为 “其 他 符号 ”， 打 开 Windows 记事 本 并 输入 一 
个 Tab 字符 ， 然 后 将 记事 本 中 输入 的 Tab 字符 复制 并 粘贴 到 “其 他 符号 ”文本 框 中 ， 如 
图 9.14 所 示 。 


9.14 ”设置 分 隔 符 
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在 步骤 4 中 ， 修 改 “ 第 一 个 数据 行 ”为 2， 跳 过 数据 文件 的 第 一 行 (标题 行 )， 如 图 9.15 
所 示 。 


图 9.15 ”设置 附加 选项 
在 步骤 $ 中 ， 设 置 目标 表 名 为 B89， 如 图 9.16 所 示 。 


日 
I bridge.to_agebra.2008.200 EE 7 


图 9.16 设置 目标 表 名 


步骤 6 的 设置 较 多 ， 只 选中 需要 的 字段 ， 按 照 表 9.5 进行 设置 ， 如 图 9.17 所 示 。 这 妇 
选用 char 类 型 是 出 于 速度 上 的 考虑 ， 如 果 介意 存储 空间 ， 不 妨 蔡 换 为 varchar 类 型 。 


表 9.5 选择 字段 和 类 型 


曲 


Anon Student Id 
Problem Name 


Step Name char 
KCGKTeacedstils 


图 9.17 选择 字段 和 类 型 


单 击 两 次 “下 一 步 ” 按 钮 ， 来 到 步骤 8， 单 击 “ 开 始 ” 按 钮 进行 导入 。 经 过 漫长 时 间 
( 约 1 到 2 小时) 的 等 待 后 ， 导 入 成 功 。 

下 一 步 的 工作 是 二 次 抽样 ， 抽 样 出 约 1/7 的 数据 。 如 果 熟 悉 Java 或 其 他 语言 的 编程 ， 
可 以 编制 程序 从 数据 库 表 中 直接 抽样 。 本 书 利 用 Weka 自 带 的 抽样 过 滤器 算法 ， 从 Row 列 
的 全 部 行 号 中 ， 选 取 1/7 的 行 号 ， 然 后 再 将 选中 行 对 应 的 数据 全 部 复制 到 另 一 个 表 中 。 详 
细 过 程 如 下 。 

首先 启动 探索 者 界面 ， 单 击 Open DB 按钮 ， 输 入 数据 库 用 户 名 和 密码 并 连接 数据 库 ， 
在 Query 选项 组 中 输入 如 下 命令 : 


SELECT Row FROM B89; 


设置 max. rows( 最 大 行 数 ) 为 20012498， 单 击 Execute 按钮 执行 查询 。 经 过 漫长 的 等 待 
后 ，Result 选项 组 中 有 数据 显示 ， 说 明 SQL-Viewer 已 经 查询 到 数据 ， 如 图 9.18 所 示 。 
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SELECT Row FROM B89: 


图 9.18 ”从 数据 库 查询 数据 
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单 击 OK 按钮 ， 再 经 过 很 长 时 间 的 等 待 后 ，Weka 探索 者 读 取 到 数据 ， 只 有 一 个 Row 
属性 ， 如 图 9.19 所 示 。 


(Clues; po Om) 


9.19 ”探索 者 读 取 数 据 


在 探索 者 界面 的 Preprocess 标签 页 中 ， 选 择 无 监督 的 实例 Resample 过 滤器 ， 设 置 
noReplacement 参数 为 True， 并 设置 sampleSizePercent 参数 为 14.2(14.2% 约 等 于 1/7)。 单 
击 Apply 按钮 应 用 过 滤器 ， 然 后 将 预 处 理 后 的 数据 另存 为 b89row.csv 文件 。 按 照 前 面 导 入 
数据 的 方式 ， 将 b89row.csv 文件 导入 到 数据 库 中 ， 形 成 名 称 为 b89row 的 数据 库 表 。 

在 Navicat for MySQL 中 ， 执 行 如 下 SQL 语句 ， 将 抽样 出 来 的 行 存放 到 Resample 
表 中 : 

CREATE TABLE Resample (SELECT b89.'Row', b89.'Anon Student Id' AS StudentId, 

CONCAT (b89. 'Problem Name',b89.'step Name') AS ProblemStep, 


b89.'KC (KTracedSkills)' AS KC, b89.'Correct First Attempt' AS CFA FROM b89, 
b89row WHERE b89.'Row' = b89row.'Row'); 


逮 注意 : 这 一 步 已 经 将 Problem Name 属性 和 Step Name 属性 合并 为 ProblemStep 
属性 。 


另外 要 特别 注意 的 是 ， 为 了 加 快 查询 速度 ， 有 时 需要 在 数据 库 表 中 设置 索引 ，MYySQL 
支持 设置 多 种 索引 类 型 ， 具 体 可 参考 有 关 数 据 库 优化 的 书籍 ， 本 书 不 再 就 这 个 问题 进行 重 
复 说 明 。 

至 此 ， 我 们 的 预 处 理工 作 已 经 完成 了 一 半 。 

下 一 步 的 工作 是 特征 (属性 ) 变 换 。 目 前 得 到 的 三 个 重要 属性 (StudentId、ProblemStep 和 
KC) 都 是 标 称 型 ， 且 取 值 的 数量 非常 大 ， 对 有 如 此 多 种 取 值 的 标 称 型 数据 进行 建 模 对 于 大 
多 数学 习 器 (包括 决策 树 ) 来 说 都 面临 很 大 的 挑战 。 由 于 时 间 和 硬件 资源 都 很 有 限 ， 要 在 这 
样 的 数据 集 上 运行 决策 树 算法 几乎 没有 可 能 性 。 另 外 ， 逻 辑 回 归 算 法 更 容易 处 理 数值 型 属 


性 ， 因 此 有 必要 通过 特征 变换 算法 将 标 称 型 属性 转换 为 数值 型 属性 。 经 过 多 方 比较 ， 最 
采纳 的 特征 变换 算法 如 算法 9.1 所 示 。 


算法 9.1 特征 变换 算法 


1 
/ 


对 于 属性 集 里 的 每 一 个 标 称 型 属性 Fc 
增加 一 个 新 的 数值 型 属性 Fn 到 属性 集 
对 于 Fc 中 的 每 一 个 取 值 v 
N = 包括 的 所 有 样本 数量 
Np = 包括 且 为 正 例 的 样本 数量 
A = Np / NO 中正 例 的 百分比 ) 
把 A 填 入 Fn 
在 属性 集 里 移 除 Fc 


采用 算法 9.1 进行 特征 变换 ， 创 建 如 下 三 个 属性 以 取代 原 对 应 属性 。 

(1) StudentChance: 由 StudentId 属性 转换 而 来 ， 表 示 一 个 学 生 解 答 问题 的 能 力 ， 即 该 
学 生 可 能 正确 解答 问题 的 概率 。 

(2) PSChance: 由 ProblemStep 属性 转换 而 来 ， 表 示 一 个 问题 步骤 的 难 易 程度 ， 即 该 步 
又 被 正确 解答 的 概率 。 

(3) KCChance: 由 KC 属性 转换 而 来 ， 表 示 某 个 知识 点 的 难 易 程度 ， 即 包含 该 知识 点 
的 步骤 被 正确 解答 的 概率 。 

注意 到 Resample 表 中 ，KC 字段 有 部 分 实例 为 空 ， 也 就 是 说 ， 没 有 明确 标 出 这 些 样本 
的 知识 组 件 到 底 是 什么 。 本 书 将 这 些 未 标 出 知识 组 件 的 样本 视 为 具有 同一 个 知识 组 件 。 在 
Navicat for MySQL 中 ， 执 行 如 下 SQL 语句 ， 将 KC 为 空 的 样本 设置 为 ISNULL 字符 串 : 


UPDATE Resample SET KC="'ISNULL' WHERE KC IS NULL; 


然后 ， 执 行 如 下 SQL 语句 ， 创 建 临 时 表 StudentChance， 其 内 容 为 学 生 StudentId 总 体 
的 解答 问题 的 能 力 StudentChance: 

CREATE TABLE StudentChance (SELECT StudentId, SUM(CFA) / COUNT (CFA) RS 

'StudentChance' FROM Resample GROUP BY StudentId); 

类 似 地 ， 分 别 执行 如 下 两 条 SQL 语句 ， 创 建 临时 表 PSChance 和 KCChance: 


CREATE TABLE PSChance (SELECT ProblemStep, SUM(CFA) / COUNT (CFA) AS 'PSChance' 
FROM Resample GROUP BY ProblemSstep); 

CREATE TABLE KCChance (SELECT KC, SUM(CFA) / COUNT(CFA) AS 'KCChance' FROM 
Resample GROUP BY KC); 


以 上 SQL 语句 的 执行 时 间 都 非常 长 ， 如 果 执 行 很 长 时 间 都 没有 结果 ， 请 多 加 耐心 等 候 。 

下 面 将 计算 好 的 三 个 Chance 回填 至 Resample 表 中 。 先 在 Resample 表 中 按照 图 9.20 
所 示 的 设置 新 增 StudentChance、PSChance 和 KKCChance 三 个 字段 ， 数 据 类 型 为 decimal， 
长 度 为 6， 小 数 点 为 4， 人 允许 空 值 。 然 后 将 CFA 字段 下 移 到 最 后 ， 以 满足 Weka 对 目标 属 


Q@ 本 算法 在 荣获 冠军 的 中 国 台 湾 大 学 团队 的 论文 Feature Engineering and Classifier Ensemble for KDD Cup 
2010 中 也 有 提 及 ， 该 论文 将 这 种 方法 称 为 CFAR(Correct First Attempt Rate)。 
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性 的 要 求 。 单 击 “ 保 存 ” 按 钮 ， 保 存 对 Resample 表 的 修改 。 
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9.20 新 增 三 个 字段 


执行 如 下 SQL 语句 ， 使 用 已 经 计算 出 来 的 StudentChance 表 ， 回 填 Resample 表 中 的 
StudentChance 字段 : 


UPDATE Resample, StudentChance SET Resample.StudentChance = 
StudentChance.StudentChance WHERE Resample.StudentId = StudentChance.studentId; 


按照 同样 的 方式 ， 回 填 Resample 表 中 的 PSChance 字段 和 KCChance 字段 : 


UPDATE Resample, PSChance SET Resample.PSChance = PSChance.PSChance WHERE 
Resample.ProblemStep = PSChance.ProblemStep; 

UPDATE Resample, KCChance SET Resample.KCChance = KCChance.KCChance WHERE 
Resample.KC = KCChance.Kc; 


到 目前 为 止 ， 已 经 按照 算法 9.1 计算 出 三 个 Chance 并 进行 回填 ， 完 成 了 特征 变换 ， 
Resample 表 中 的 四 个 字段 (StudentChance、PSChance、KCChance 和 CFA 字段 ) 就 是 预 处 理 
要 得 到 的 最 终结 果 。 我 们 可 以 删除 Row、StudentId、ProblemStep 和 KC 字段 ， 因 为 这 些 字 
段 已 经 不 再 有 用 。 但 是 ， 更 有 效率 的 方法 是 不 管 这 些 字段 ， 仅 导出 包含 有 用 字段 的 数据 集 
文件 ， 最 后 将 文件 转换 为 ARFF 格式 。 

在 Navicat for MySQL 中 ， 单 击 “ 导 出 向 导 ” 按 钮 ， 弹 出 “导出 向 导 ” 窗 口 。 在 步骤 1 
中 ， 保 存 默认 设置 。 在 步骤 2 中 ， 选 择 导 出 源 为 resample， 单 击 该 源 右边 的 “...” 按 钮 ， 
在 “另存 为 ”对 话 框 中 ， 输 入 文件 名 为 B89ytas.txt。 在 步骤 3 中 ， 先 取消 选中 “全 部 栏 
位 ” 复 选 框 ， 然 后 选择 要 导出 的 字段 ， 如 图 9.21 所 示 。 在 步骤 4 中， 设置 “ 栏 位 分 隔 符 ” 
为 “逗号 ”。 在 步骤 5 中 ， 单 击 “ 开 始 ”按钮 开始 导出 。 

等 待 导出 完成 后 ， 将 导出 的 文件 更 名 为 B89ytas.arff， 用 EmEditor 或 其 他 文本 编辑 器 
打开 该 文件 ， 将 文件 最 开始 的 第 一 行 CSV 标题 蔡 换 为 如 程序 清单 9.2 所 示 的 ARFF 标 


图 9.21 选择 要 导出 的 字段 
程序 清单 9.2 ”ARFF 标题 头 
@relation B89 


@attribute StudentChance numeric 
@attribute PSChance numeric 
Q@attribute KCChance numeric 
@attribute CFA {0, 1} 


@data 


如 果 你 能 坚持 到 现在 ， 蔡 喜 ! 你 已 经 完成 最 困难 最 耗 时 的 预 处 理工 作 ， 有 足够 的 耐心 
和 角力 来 面 对 将 来 大 数据 的 严酷 挑战 。 


2. 挖掘 过 程 和 结果 


启动 Weka 探索 者 界面 ， 加 载 B89ytas.arff 文件 ， 切 换 至 Classify 标签 页 ， 选 择 
Logistic 分 类 器 ， 保 持 分 类 器 的 默认 参数 ， 使 用 十 折 交 叉 验 证 ， 运 行 结果 如 图 9.22 所 示 。 
分 类 准确 率 为 88.8591%， 均 方 根 误差 RMSE 为 0.2856， 效 果 非 常 好 。 
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图 9.22 ”逻辑 回归 的 运行 结果 
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选择 J48 分 类 器 ， 保 持 分 类 器 的 默认 参数 和 十 折 交 叉 验 证 不 变 ， 运 行 结果 如 图 9.23 所 

示 。 分 类 准确 率 为 88.9495%， 均 方 根 误差 RMSE 为 0.2848。 可 见 ，J48 决策 树 的 效果 比 

Logistic 分 类 器 的 效果 稍 好 。 
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9.23 ”J48 决策 树 的 运行 结果 


读者 也 许 想 知道 这 个 结果 在 当年 距离 冠军 大 概 还 有 多 远 。 按 照 网 址 
http://pslcdatashop.web.cmu.edu/KDDCup/Leaderboard?teamId=NTU 给 出 的 成 绩 ， 冠 军 NTU 
在 Bridge to Algebra 2008 一 2009 数据 集 上 的 最 好 成 绩 RMSE 为 0.271157。 鉴 于 本 方法 仅 使 
用 三 个 属性 和 有 限 的 计算 设备 ，RMSE 0.2848 的 成 绩 已 经 非常 优异 。 

3. 挖掘 方法 再 讨论 

前 文 实现 了 伊朗 学 生 Yasser Tabandeh 和 Ashkan Sami 提出 的 挖掘 方法 ， 仅 仅 使 用 20 
个 属性 中 的 三 个 属性 和 一 个 目标 属性 ， 分 类 准确 率 就 能 达到 88.9495%， 如 果 再 对 分 类 器 参 
数 进行 优化 ， 或 者 采用 集成 学 习 算法 ， 估 计 成 绩 还 有 提升 的 空间 。 

让 我 们 以 挑剔 的 眼光 检视 这 种 方法 ， 注 意 到 测试 选项 采用 十 折 交 叉 验 证 方法 ， 也 就 是 
把 全 部 数据 集 划 分 为 大 致 相等 的 十 份 ， 将 其 中 的 一 份 用 作 测试 集 ， 其 余 九 份 用 作 训 练 集 。 
把 目光 集中 在 用 作 测 试 集 的 一 份 上 ， 我 们 发 现 : 在 预 处 理 时 ， 采 用 的 特征 变换 算法 已 经 偷 
偷 地 “看 到 ”了 测试 集中 的 预测 答案 ， 即 算法 中 计算 4=Np/N，N 包含 的 是 全 部 十 份 的 样 
本 总 数 ，Np 也 是 全 部 十 份 中 为 正 例 的 样本 数量 ，Np 的 计算 已 经 将 测试 集中 的 样本 分 布 

“混入 ”到 预 处理 后 的 属性 中 。 这 时 ， 测 试 集 已 经 变 成 “污染 ”的 测试 集 ， 其 预测 结果 肯 
定 会 好 于 真实 结果 。 但 在 真正 对 挑战 测试 集中 的 测试 部 分 进行 预测 时 ， 由 于 答案 已 经 隐 
藏 ， 没 法 预先 看 到 答案 ， 其 预测 准确 率 肯定 会 差 一 些 。 

为 了 保证 对 分 类 预测 性 能 评估 的 真实 性 ， 本 书 对 上 述 方法 进行 了 两 点 改进 。 第 一 ， 严 
格 按照 KDD Cup 2010 竞赛 组 织 者 抽取 测试 集 的 方式 来 抽取 测试 集 ， 不 偷 看 测试 集中 的 答 
案 ， 保 证 对 分 类 器 评估 的 有 效 性 和 合理 性 ;第 二 ， 不 采用 完全 随机 的 数据 抽样 ， 而 是 考虑 


数据 的 时 效 性 ， 只 抽样 离 测试 样本 最 近 的 问题 步骤 。 


9.3.4 ”更 接近 实际 的 挖掘 过 程 

本 节 首 先 研究 KDD Cup 2010 竞赛 组 织 者 抽取 测试 集 的 方式 ， 按 照 该 方式 从 数据 集中 
抽取 训练 集 和 测试 集 ; 然后 用 分 类 器 对 训练 集 进行 学 习 ， 用 测试 集 来 评估 学 习 到 的 模型 。 
这 样 的 评估 结果 更 接近 实际 。 

1. 划分 训练 集 和 测试 集 的 思路 

KDD Cup 2010 的 训练 文件 和 测试 文件 是 按照 图 9.24 所 示 的 方法 来 划分 的 。 图 中 的 每 
一 根 水 平 粗 实 线 代 表 学 生 的 步骤 记录 ， 数 据 集 分 解 为 学 生 、 单 元 、 章 节 和 问题 。 
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图 9.24 KDD Cup 2010 划分 训练 文件 和 测试 文件 的 方法 

测试 样本 由 一 个 程序 决定 ， 该 程序 在 每 个 学 生 的 一 个 单元 中 随机 选择 一 个 问题 ， 并 将 
该 学 生 的 姓名 以 及 问题 中 的 所 有 步骤 放 到 测试 文件 中 。 按 照 时 间 顺 序 ， 将 本 单元 所 有 排 在 
选中 问题 之 前 的 问题 步骤 都 放 到 训练 文件 中 ， 并 丢弃 排 在 选中 问题 之 后 的 问题 步骤 。 测 试 
时 的 目标 是 预测 学 生 第 一 次 尝试 解答 测试 文件 中 问题 的 每 一 个 步骤 是 否 正确 ， 预 测 准确 率 
决定 选手 是 否 获胜 。 

测试 文件 是 每 个 选手 必须 提交 的 ， 每 个 步骤 均 未 标签 。 测 试 文件 再 细 分 为 两 个 部 分 : 
第 一 部 分 将 用 于 验证 数据 并 提供 选手 在 积分 榜 上 的 排名 和 分 数 ， 第 二 部 分 将 用 于 决定 比赛 
的 优胜 者 。 

由 于 KDD Cup 2010 的 测试 文件 没有 提供 Correct First Attempt 值 ， 无 法 直接 通过 该 测 
试 文件 来 评估 分 类 模型 的 性 能 。 合 理 的 思路 是 从 训练 文件 中 划分 出 单独 的 训练 集 和 测试 
集 ， 训 练 集 用 于 训练 模型 ， 测 试 集 用 于 评估 模型 。 这 里 不 采用 交叉 验证 的 理由 是 它 与 竞赛 
的 方式 不 同 : 竞赛 的 测试 文件 是 由 每 个 学 生 每 个 单元 的 最 后 一 个 问题 组 成 ， 遵 循 时 间 的 先 
后 次 序 ， 但 交叉 验证 却 不 考虑 时 间 因 素 。 

按照 这 种 划分 思路 ， 将 原 训练 文件 中 每 个 学 生 在 每 个 单元 练习 的 最 后 一 个 问题 抽取 出 
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来 ， 组 成 用 于 验证 模型 的 测试 集 。 此 时 ， 如 果 将 剩 下 的 所 有 问题 都 作为 训练 集 ， 显 然 训 练 
集 过 大 ， 一 般 计算 机 无 法 处 理 。 直 接 能 想到 的 解决 方案 有 两 种 :一 是 随机 抽样 ， 随 机 抽取 
剩 下 的 部 分 问题 作为 训练 集 ， 二 是 考虑 时 间 顺 序 ， 只 抽取 每 个 单元 最 后 几 个 问题 组 成 训练 
集 ， 扔 掉 单元 内 离 测 试问 题 较 远 的 问题 。 从 常识 上 来 判断 ， 第 二 种 方式 更 有 优势 ， 因 为 知 
识 学 习 是 一 个 循序 渐进 的 过 程 ， 时 间 越 近 的 多 个 问题 的 知识 相关 程度 越 高 。 

综 上 所 述 ， 最 终 采 纳 的 方案 是 将 每 个 学 生 每 个 单元 的 最 后 一 个 问题 抽取 出 来 组 成 测试 
集 ， 将 剩余 数据 中 每 个 学 生 每 个 单元 的 最 后 三 个 问题 抽取 出 来 组 成 训练 集 。 

2. 预 处 理 


新 的 训练 集 和 测试 集 划 分 方式 要 考虑 单元 信息 ， 因 此 要 全 部 重 做 。 

删除 weka 数据 库 中 所 有 的 表 ， 使 用 Navicat for MySQL 工具， 按照 前 文 的 方法 将 
bridge_to_algebra 2008_2009_train.txt 文件 中 如 表 9.6 所 示 的 部 分 属性 导入 到 数据 库 的 B89 
表 中 。 与 前 面 方法 不 同 之 处 是 新 增 了 Problem Hierarchy 字段 ， 该 字段 含有 单元 名 称 信息 。 


表 9.6 新 增 Problem Hierarchy 字段 


序 号 目标 栏 位 类 型 长 度 

1 Row int 

2 Anon Student Id char 15 

入 Problem Hierarch: char 255 
4 Problem Name char pA 

5 Step Name char 255 
6 Correct First Attempt tinyint 

7 KC(KTracedSkills char 255 


导入 数据 后 ， 下 一 步 的 工作 是 实现 训练 集 和 测试 集 的 划分 。 其 流程 图 如 图 9.25 所 示 。 
原 训练 文件 按照 时 间 顺 序 排列 ， 从 后 向 前 逆序 容易 实现 数据 拆 分 。 从 流程 图 可 以 看 到 ， 总 
体 的 目标 是 将 第 0 个 问题 (逆序 的 第 0 个 问题 就 是 顺序 的 最 后 一 个 问题 ) 的 步骤 划分 至 测试 
集 ， 将 第 1 至 第 3 个 问题 的 步骤 划分 至 训练 集 ， 丢 弃 其 他 问题 的 步骤 。 当 然 ， 该 流程 图 省 
略 了 很 多 细节 ， 例 如 ， 必 须 记 录 学 生 姓 名 ， 才 能 判断 新 的 记录 是 否 是 新 学 生 的 学 习 日 志 ， 
必须 对 问题 有 一 个 计数 器 ， 才 能 判断 到 底 将 记录 插入 到 测试 集 ， 或 是 训练 集 ， 或 是 丢弃 。 

总 体 来 说 ， 训 练 集 和 测试 集 的 划分 逻辑 较为 复杂 ， 很 难 用 SQL 语句 实现 ， 更 好 的 办 法 
是 用 Java 语言 编程 实现 。 最 终 实现 的 Java 代码 如 程序 清单 9.3 所 示 ， 其 功能 是 从 B89 表 
中 抽样 ， 形 成 训练 集 B89Train 表 和 测试 集 B89Test 表 。 


狂 注意 : ”程序 中 使 用 了 一 些小 技巧 ， 例 如 ， 由 于 B89 表 非 常 大 ， 只 能 对 B89 表 进行 分 
批 查询 。 如 果 不 这 样 做 ， 程 序 执行 容易 死机 。 
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9.25 ”训练 集 和 测试 集 划 分 流程 图 


程序 清单 9.3 Preprocessingjava 
package kdd2010.b89; 


import java. 
import java. 
import java. 
import java. 
import java. 
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sql.Connection; 

sql .DriverManager; 

sql .PreparedSstatement; 
sql.ResultSset; 
sql.Sstatement; 
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* 抽样 原 数据 集 ， 将 原 训练 数据 拆 分 为 训练 集 和 测试 集 。 
* 训练 集 由 每 个 学 生 每 个 单元 的 TRAINSETPROBLEMNUMBER 个 问题 组 成 ， 测 试 集 由 每 个 学 生 每 个 单元 的 最 
* 后 一 个 问题 组 成 。 
a 
public class Preprocessing { 
static final int TRAINSETPROBLEMNUMBER = 3; // 抽取 的 训练 集中 每 个 学 生 一 个 单元 的 
// 问题 数 
static final long POPULATION = 20012498; // 样本 容量 
static final long BATCH = 1000; // 批 次 处 理 的 样本 数 


public static void main (String[] args) { 
Connection con = null; 
Statement stmt = null; 
PreparedStatement pstmtInsertTrain = null; 
PreparedStatement pstmtInsertTest = null; 
PreparedStatement pstmtSelect = null; 
ResultSet rs = null; 


try { 
// 加 载 数据 库 驱动 
Class. forName ("com.mysql .jdbc.Driver"); 
// 创建 数据 库 连接 
con = DriverManager.getConnection 
("jdbc:mysql://localhost:3306/weka", "weka", "weka"); 
// 创建 Statement 对 象 


stmt = con.createstatement (); 


String sqlTrain = "CREATE TABLE B89Train (Row int NOT NULL, 
StudentId char(255), ProblemStep char(255), KC char(255), 
CFEA tinyint, PRIMARY KEY (Row))"; 

String sqlTest = "CREATE TABLE B89Test (Row int NOT NULL, 
StudentId char(255), ProblemStep char(255), KC char(255), 
CFEA tinyint, PRIMARY KEY (Row))"; 


// 创建 训练 集 和 测试 集 表 
stmt .executeUpdate (sqlTrain); 
stmt .executeUpdate (sqlTest); 


// 因为 记录 数 超大 ， 企 图 一 条 SQL 语句 加 载 全 部 数据 无 法 运行 ， 只 能 分 批 查询 

String sqlSelect = "SELECT * FROM B89 WHERE Row BETWEEN ? AND ? 
ORDER BY Row DESC"; 

pstmtSelect = con.prepareStatement (sqlSelect); 

long idx = POPULATION - BATCH; // 指针 ，idx 所 指向 的 行 是 处 理 过 数据 的 上 界 

pstmtSelect.setLong (1, idx); 

pstmtSelect .setLong (2, POPULATION); 

rs = pstmtselect .executeQuery (); 


String sqlInsertTrain = "INSERT INTO B89Train VALUES 
(a 


PstmtInsertTrain = con.prepareStatement (sqlInsertTrain); 


String sqlInsertTest = "INSERT INTO B89Test VALUES 

(2, 2, 2, 2, 2)"; 
pstmtInsertTest = con.prepareStatement (sqlInsertTest); 
long finishedsteps = 0; 
int problemsPerUnit = 0; 
String oldstudent = 
String oldUnit = 
String oldProblem = 
String unit = ""; 


while (true) { 
if (!rs.next()) { 
rs.close () ; // 先 关 闭 数据 集 ， 才 能 重新 使 用 
idx--; // 避免 重复 使 用 一 条 记录 
i£f (ld < 1) 
idx = 1; // 检查 边界 
pstmtSelect .setLong (2, idx); 
idx = idx - BATCH; 
i ‘(ix < 1) 
idx = 1; // 检查 边界 
pstmtSelect .setLong (1, idx); 
rs = pstmtSselect .executeQuery (); 
rs.next () ; // 保证 跳 到 第 一 条 记录 


finishedSteps++7 
// 打印 进度 
if (finishedsteps % 100 一 0) 
System.out.print (finishedsteps + " 条 记录 已 处 理 \n"); 


// 分 隔 出 单元 信息 
unit = rs.getstring ("Problem Hierarchy") .trim() 7 
unit = unit.split(",") [0]; 


if (oldstudent.equals (rs.getstring ("Anon Student Id") .trim()) 
&& oldUnit.equals (unit)) { 
// 老 学 生 且 老 单元 
if (oldProblem.equals (rs.getstring ("Problem 
Name") .trim())) { 
// 老 问 题 
// 只 处 理 指定 范围 的 问题 
if (problemsPerUnit <= TRAINSETPROBLEMNUMBER) { 
if (problemsPerUnit 一 0) { 
// 最 开始 的 一 个 问题 
// 插入 到 测试 集 
pstmtInsertTest.setInt (1, rs.getInt (1)); 
pstmtInsertTest.setstring (2, 
rs.getstring (2) .trim()); 
pstmtInsertTest.setstring (3, 
rs.getstring(4) .trim() + 
rs.getstring (5) .trim()); 
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pstmtInsertTest.setstring (4, 
rs.getstring (7)); 
pstmtInsertTest.setInt (5, rs.getInt (6)); 


pstmtInsertTest .execute (); 
} else { 

// 后 面 的 TRAINSETPROBLEMNUMBER 个 问题 

// 插入 到 训练 集 

pstmtInsertTrain.setInt (1, rs.getInt (1)); 

pstmtInsertTrain.setstring (2, 
rs.getstring (2) .trim()); 

pstmtInsertTrain.setstring (3, 
rs.getstring(4) .trim() + 
rs.getstring(5) .trim()); 

pstmtInsertTrain.setstring (4, 
rs.getstring (7)); 

pstmtInsertTrain.setInt (5, rs.getInt (6)); 


pstmtInsertTrain.execute (); 


} else { 
// 新 问题 
oldProblem = rs.getstring ("Problem Name") .trim(); 
problemsPerUnit++; 


// 插入 到 训练 集 
if (problemsPerUnit <= TRAINSETPROBLEMNUMBER) { 
pstmtInsertTrain.setInt (1, rs.getInt(1)); 
pstmtInsertTrain.setstring (2, 
rs.getstring (2) .trim()); 
pstmtInsertTrain.setstring (3, 
rs.getstring(4) .trim() + 
rs.getstring(5) .trim()); 
pstmtInsertTrain.setstring(4, rs.getstring(7)); 
pstmtInsertTrain.setInt (5, rs.getInt(6)); 


pstmtInsertTrain.execute (); 


} else { 
// 新 学 生 或 者 新 单元 
// 保存 学 生 、 单 元 和 问题 ， 以 便 比 对 
oldstudent = Ts.getString("Rnon Student Id") .trim() 7 
oldUnit = unit; 
oldProblem = Ts.getString("Problem Name") -trim() 7 


problemsPerUnit = 07 


@« 


// 插入 到 测试 集 

pstmtInsertTest.setInt (1, rs.getInt (1)); 

pstmtInsertTest.setSstring(2, rs.getstring(2) .trim()); 

pstmtInsertTest .setstring(3, rs.getstring(4) .trim() + 
rs.getstring (5) .trim()); 

pstmtInsertTest.setstring(4, rs.getstring(7)); 

pstmtInsertTest.setInt (5, rs.getInt (6)); 


pstmtInsertTest .execute (); 
} 


if (rs.getInt(1) = 1) { 
break; // 到 了 第 一 条 记录 ， 该 退出 了 
} 
} 


} catch (Exception e) { 
e.printstackTrace (); 
} finally { 
// 关闭 数据 库 连接 
if (con != null) { 
try { 


con.close(); 

} catch (Exception e) { 
// 不 处 理 了 

} 


} 

视 计 算 机 处 理 速度 快慢 ， 经 过 数 个 小 时 甚至 数 十 个 小 时 的 处 理 ， 最 终 会 在 数据 库 中 生 
成 两 个 表 B89train 和 B89test， 其 记录 数 分 别 为 2264653 和 774378， 大 约 占 原 数 据 的 
15.19%。 

至 此 ， 完 成 了 训练 集 和 测试 集 的 划分 。 下 一 步 的 工作 是 进行 特征 变换 。 

在 Navicat for MySQL 中 ， 执 行 如 下 SQL 语句 ， 将 B89train 表 中 KC 为 空 的 样本 设置 
为 ISNULL 字符 串 : 

UPDATE B89train SET KC="'ISNULL' WHERE KC IS NULL; 

同样 ， 将 B89test 表 中 KC 为 空 的 样本 设置 为 ISNULL 字符 串 : 

UPDATE B89test SET KC="ISNULL' WHERE KC IS NULL; 

执行 如 下 SQL 语句 ， 创 建 临时 表 StudentChance， 其 内 容 为 学 生 StudentId 总 体 的 解答 
问题 的 能 力 StudentChance: 


CREATE TABLE StudentChance (SELECT StudentId, SUM(CFA) / COUNT (CFA) RS 
"StudentChance' FROM B89train GROUP BY StudentId); 
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类 似 地 ， 执 行 如 下 两 条 SQL 语句 ， 分 别 创建 临时 表 PSChance 和 KCChance: 


CREATE TABLE PSChance (SELECT ProblemStep, SUM(CFA) / COUNT (CFA) RS 'PSChance' 
FROM B89train GROUP BY ProblemStep); 

CREATE TABLE KCChance (SELECT KC, SUM(CFA) / COUNT (CFR) AS 'KCChance' FROM 
B89train GROUP BY KC); 


然后 ， 将 计算 好 的 三 个 Chance 回填 至 B89train 表 中 。 先 在 B89train 表 中 按照 图 9.26 


所 示 的 设置 新 增 StudentChance、PSChance 和 KCChance 三 个 字段 ， 数 据 类 型 为 decimal， 
长 度 为 6， 小 数 点 为 4， 人 允许 空 值 。 然 后 将 CFA 字段 下 移 到 最 下 面 ， 以 满足 Weka 对 目标 
属性 最 好 是 最 后 一 个 属性 的 要 求 。 单 击 “ 保 存 ” 按 钮 ， 保 存 对 B89train 表 的 修改 。 对 
B89test 表 也 做 同样 的 处 理 。 
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图 9.26 新 增 三 个 字段 
执行 如 下 SQL 语句 ， 使 用 已 经 计算 出 来 的 StudentChance 表 ， 回 填 B89train 中 的 


StudentChance 字段 : 


UPDATE B89train, StudentChance SET B89train.StudentChance = 
StudentChance.StudentChance WHERE B89train.studentId = StudentChance.studentId; 


按照 同样 的 方式 ， 回 填 B89train 表 中 的 PSChance 字段 和 KCChance 字段: 


UPDATE B89train，PSChance SET B89train.PSChance = PSChance.PSChance WHERE 
B89train.ProblemStep = PSChance.ProblemStep; 

UPDATE B89train, KCChance SET B89train.KCChance = KCChance.KCChance WHERE 
B89train.KcC = KCChance.Kc; 


同样 ， 回 填 B89test 表 中 的 StudentChance、PSChance 和 KCChance 字段 : 


UPDATE B89test, StudentChance SET B89test.studentChance = 
StudentChance.StudentChance WHERE B89test.studentId = StudentChance.studentId; 
UPDATE B89test, PSChance SET B89test.PSChance = PSChance.PSChance WHERE 
B89test .ProblemStep = PSChance.ProblemStep; 


UPDATE B89test, KCChance SET B89test.KCChance = KCChance.KCChance WHERE 

B89test.KC = KCChance .KC7 

可 以 注意 到 一 个 重要 的 细节 ， 就 是 三 个 Chance 都 只 是 根据 B89train 表 计 算 而 得 ， 没 
有 偷 看 B89test 表 中 的 答案 。 

下 面 检查 测试 集 的 缺失 值 。 

执行 如 下 SQL 语句 ， 获 取 B89test 表 中 的 样本 数 : 


SELECT COUNT (*) FROM B89test; 


结果 为 774378， 也 就 是 说 ， 测 试 集 中 一 共有 774378 个 样本 。 
执行 如 下 SQL 语句 : 
SELECT COUNT (*) FROM B89test WHERE StudentChance IS NULL; 


结果 为 3367， 也 就 是 说 ， 测 试 样 本 中 约 0.43% 的 学 生 没有 在 训练 集中 出 现 。 
执行 如 下 SQL 语句 : 


SELECT COUNT(*) FROM B89test WHERE PSChance IS NULL; 


结果 为 32361， 也 就 是 说 ， 测 试 样本 中 约 4.2% 的 问题 步骤 没有 在 训练 集中 出 现 。 
执行 如 下 SQL 语句 : 


SELECT COUNT(*) FROM B89test WHERE KCChance IS NULL; 


结果 为 28， 也 就 是 说 ， 测 试 样本 中 约 0.0036% 的 知识 组 件 没 有 在 训练 集中 出 现 。 

这 些 测 试 集中 的 缺失 值 对 分 类 器 评估 无 疑 会 带 来 负面 影响 。 如 果 StudentChance 为 
空 ， 说 明 这 些 学 生根 本 就 没有 在 训练 集中 出 现 过 。 试 想 一 下 ， 要 对 一 个 你 一 无 所 知 的 学 生 
成 绩 进行 预测 ， 你 会 怎么 办 ? 谁 也 没 办 法 ， 只 能 靠 猜 ， 依 靠 猜测 的 测试 样本 准确 率 肯 定 很 
低 。 再 看 PSChance， 该 值 为 空 带 来 的 影响 更 大 ， 因 为 缺失 比例 更 高 。 换 句 话说 ， 通 过 训 
练 ， 我 们 能 够 了 解 某 个 步骤 被 正确 解答 的 概率 ， 在 一 定 程度 上 这 表示 该 步骤 的 难度 。 如 果 
对 某 个 步骤 的 难度 一 无 所 知 ， 要 预测 也 只 能 靠 猜 。KCChance 也 类 似 。 

那么 ， 扩 大 抽样 范围 能 否 解决 这 个 问题 ? 分 析 后 ， 答 案 有 些 令 人 诅 丧 。 首 先 ， 哪 怕 将 
全 部 除 测 试 集 以 外 的 剩余 步骤 都 划分 到 训练 集 ， 还 是 有 3367 个 步骤 的 StudentChance 为 
空 ， 因 为 那些 学 生 就 只 完成 了 单元 的 最 后 一 个 也 是 唯一 一 个 问题 ， 这 个 问题 的 步骤 已 经 全 
部 划分 到 测试 集 ， 没 法 在 训练 集中 重复 使 用 。 但 是 ， 扩 大 抽样 范围 对 PSChance 和 
KCChance 肯定 有 益 ， 例 如 ， 将 原 算法 划分 到 训练 集 的 最 后 三 个 问题 扩大 至 最 后 十 个 问 
题 ， 也 许 有 一 些 问 题 步骤 就 会 在 训练 集中 出 现 ， 但 到 底 有 多 少 ? 扩大 抽样 范围 带 来 性 能 提 
升 好 处 的 同时 又 会 增加 计算 复杂 度 ， 是 功 是 过 只 能 通过 实验 才 有 定论 。 

直接 将 这 些 有 缺失 值 的 测试 样本 删除 无 疑 是 最 简单 的 办 法 。 但 是 ， 相 对 于 简单 删除 不 
完全 样本 ， 用 最 可 能 的 值 插 补缺 失 值 丢失 的 信息 比较 少 。 缺 失 值 插 补 方法 有 多 种 ， 最 简单 
的 是 将 缺失 值 蔡 换 为 均值 ， 称 为 均值 插 补 。 

在 蔡 换 前 ， 应 使 用 Navicat for MySQL 工具 将 B89test 表 备 份 为 B89test copy， 以 备 后 
面 的 分 析 。 

执行 如 下 SQL 语句 ， 将 B89test 表 中 为 空 的 值 蔡 换 为 B89train 表 中 相应 Chance 的 均值 : 


毒 将 避 眉 弗 苦 ” 山 6 小 全 IE 


© 


Ox 


数据 挖掘 写 机 器 学 习 


一 一 WEKA 应 用 


UPDATE B89test SET B89test.StudentChance = (SELECT SUM(StudentChance) / 
COUNT (StudentChance) FROM B89train) WHERE B89test.StudentChance IS NULL; 
UPDATE B89test SET B89test.PSChance = (SELECT SUM(PSChance) / COUNT (PSChance) 
FROM B89train) WHERE B89test.PSChance IS NULL; 

UPDATE B89test SET B89test.KCChance = (SELECT SUM(KCChance) / COUNT (KCChance) 
FROM B89train) WHERE B89test.KCChance IS NULL; 


最 后 ， 按 照 9.3.3 节 介 绍 的 方法 ， 将 B89train 表 和 B89test 表 中 的 四 个 字段 
(StudentChance、PSChance、KCChance 和 CFA 字段 ) 分 别 导 出 为 B89train.txt 和 B89test.txt 
文件 。 等 待 导 出 完成 后 ， 将 导出 的 两 个 文件 分 别 更 名 为 B89train.arff 和 B89test.arff， 用 
EmEditor 或 其 他 文本 编辑 器 分 别 打开 这 两 个 文件 ， 将 文件 最 开始 的 第 一 行 CSV 标题 蔡 换 
为 如 前 文 程序 清单 9.2 所 示 的 ARFF 标题 头 。 

3. 挖掘 过 程 和 结果 

启动 Weka 探索 者 界面 ， 加 载 B89train.arff 文件 ， 切 换 至 Classify 标签 页 ， 选 择 
Logistic 分 类 器 ， 保 持 分 类 器 的 默认 参数 ， 在 Test options 选项 组 中 选中 Supplied test set 单 


选 按钮 ， 单 击 Set 按钮 ， 选 择 B89test.arff 文件 作为 测试 集 。 运 行 结果 如 图 9.27 所 示 。 分 类 
准确 率 为 87.8009%， 均 方 根 误差 RMSE 为 0.3095。 效 果 比 前 面 的 稍 差 ， 但 更 符合 实际 。 


图 9.27 逻辑 回归 结果 


单 击 Choose 按钮 ， 选 择 J48 分 类 器 ， 重 新 运行 训练 和 测试 ， 得 到 的 结果 如 图 9.28 所 
示 。 分 类 准确 率 为 88.2308%， 均 方 根 误差 RMSE 为 0.3083， 比 逻辑 回归 稍 好 。 

4. 模型 的 泛 化 能 力 

机 器 学 习 的 目的 是 使 学 习 到 的 模型 不 仅 对 已 知 数据 有 很 好 的 预测 能 力 ， 而 且 对 未 知 数 
据 也 能 产生 正确 的 输出 。 通 过 训练 集训 练 得 到 的 模型 在 多 大 程度 上 能 够 对 新 实例 预测 正确 
输出 称 为 泛 化 。 

在 前 面 的 实验 中 ， 测 试 集 都 是 训练 集中 没有 的 新 实例 ， 预 测 准确 率 实际 评估 的 就 是 分 
类 模型 的 泛 化 能 力 。 现 在 ， 让 我 们 再 考虑 一 种 极端 的 情形 ， 只 预测 那些 在 训练 集中 没 见 过 
的 学 生 ， 或 是 没 见 过 的 题 ， 或 是 没 见 过 的 知识 组 件 的 实例 ， 看 看 我 们 的 模型 到 底 怎样 。 前 


文 描述 过 ， 这 类 情形 纯粹 依靠 猜测 ， 如 果 在 这 样 的 极端 情况 下 还 能 达到 一 定 的 准确 率 ， 我 
们 可 以 大 致 认为 模型 的 泛 化 能 力 很 好 。 
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图 9.28 J48 分 类 结果 
实验 步骤 如 下 。 
步骤 一 ， 在 测试 集中 ， 只 挑选 那些 StudentChance、PSChance 或 KCChance 为 缺失 值 
的 实例 ， 形 成 B89Null 表 : 


CREATE TABLE B89Null (SELECT * FROM b89test copy WHERE StudentChance IS NULL 
OR PSChance IS NULL OR KCChance IS NULL); 


步骤 二 ， 检 查 新 测试 集中 ， 各 个 缺失 值 的 数量 
SELECT COUNT (*) FROM B89Null; 


结果 为 35562。 
SELECT COUNT (*) FROM B89Null WHERE StudentChance IS NULL; 


结果 为 3367。 
SELECT COUNT (*) FROM B89Null WHERE PSChance IS NULL; 


结果 为 32361。 


SELECT COUNT(*) FROM B89Null WHERE KCChance IS NULL; 


结果 为 28。 
步骤 三 ， 将 新 测试 集中 的 缺失 值 蔡 换 为 训练 集 相 应 的 均值 : 


UPDATE B89Null SET B89Nul1.StudentChance = (SELECT SUM(StudentChance) / 
COUNT (StudentChance) FROM B89train) WHERE B89Nul1.StudentChance IS NULL; 
UPDATE B89Null SET B89Nul1.PSChance = (SELECT SUM(PSChance) / COUNT (PSChance) 
FROM B89train) WHERE B89Null.PSChance IS NULL; 

UPDATE B89Null SET B89Nul1.KCChance = (SELECT SUM(KCChance) / COUNT (KCChance) 
FROM B89train) WHERE B89Null.KCChance IS NULL; 
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步骤 四 ， 按 照 前 文 导出 数据 表 的 方法 ， 将 B89Null 表 中 的 四 个 字段 (StudentChance、 
PSChance、KCChance 和 CFA 字段 ) 导 出 为 B89Null.txt 文件 。 等 待 导 出 完成 后 ， 将 文件 更 
名 为 B89null.arff， 用 EmEditor 或 其 他 文本 编辑 器 打开 ARFF 文件 ， 将 文件 最 开始 的 第 一 


行 CSV 标题 替换 为 如 前 文 程 序 清单 9.2 所 示 的 ARFF 标题 头 。 


步骤 五 ， 使 用 Weka 探索 者 ， 训 练 集 为 B89train arff， 测 试 集 为 B89null.arff。 分 别 使 
用 逻辑 回归 和 J48 决策 树 进 行 模型 训练 和 评估 ， 分 类 准确 率 分别 为 82.7147% 和 
82.7091%， 两 者 的 分 类 准确 率 差 不 多 ， 这 次 逻辑 回归 稍 好 ， 如 图 9.29 和 图 9.30 所 示 。 由 
于 目标 实例 的 一 个 或 多 个 属性 缺失 ， 只 能 使 用 训练 集 的 均值 进行 插 补 ， 得 到 的 分 类 准确 率 
低 于 前 面 的 结果 ， 符 合 预期 。 
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综 上 所 述 ， 本 节 所 构建 的 模型 有 很 好 的 泛 化 能 力 ， 即 使 对 于 训练 集中 没 见 过 的 学 生 、 
没 见 过 的 问题 步 又， 或 者 没 见 过 的 知识 组 件 的 极端 测试 样本 ， 模 型 的 预测 准确 率 仍 然 能 
超过 82%。 


8 课 后 强化 练 司 提 久 -ee 


9.1 在 KDD Cup 1999 数据 集中 ，20 lnum_outbound cmds 和 21 is_host login 这 两 个 
属性 与 类 别 属性 根本 不 相关 ， 为 什么 ? 使 用 Weka 探索 者 界面 Preprocess 标签 页 右 下 角 的 
可 视 化 工具 说 明 你 的 理由 。 

9.2 ”为 什么 数据 预 处 理 过 程 非 常 重 要 ? 

9.3 与 KDD Cup 2010 比较 ，KDD Cup 1999 数据 集 的 预 处 理 非常 简单 ， 为 什么 ? 

9.4 远程 实验 中 ， 可 启动 的 远程 引擎 数量 是 根据 什么 因素 决定 的 ? 

9.5 使 用 EmEditor 编辑 器 ， 打 开 KDD Cup 2010 的 数据 集 和 训练 集 文件 ， 理 解 每 个 
属性 的 含义 。 

9.6 通过 实例 ， 说 明 在 数据 预 处 理 中 为 什么 数据 库 系 统 的 效率 很 高 。 

9.7 在 9.3.3 节 的 预 处 理 中 ， 为 什么 没有 像 在 9.3.4 节 那 样 检查 三 个 Chance 字段 是 否 
为 空 ? 

9.8 结合 实践 ， 说 明 将 训练 集 和 测试 集 数据 严格 分 开 的 必要 性 。 
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附录 A 中 英文 术语 对 照 


0R (0-rule，ZeroR): 0 规则 

1R (1-rmle，OneR): 1 规则 

accuracy: 准确 率 

ARFF(Attribute-Relation File Format): 属性 -关系 文件 格式 
aggregation 聚集 

AIC(Akaike Information Criterion): 赤 池 信息 准则 
ANN(Artificial Neural Network): 人 工 神经 网 络 

association analysis: 关联 分 析 

association rule: 关联 规则 

attribute: 属性 

attribute selection: 属性 选择 

AUC(Area Under the Curve): ROC 曲线 下 面积 
AUPRC(Area Under the Precision-Recall Curve): 查 准 率 - 查 全 率 曲线 下 面积 
bagging: 装 袋 

Bayes: 贝 叶 斯 

base classifier: 基 分 类 器 

binarization: 二 元 化 

BIC(Bayesian Information Criterion): 贝 叶 斯 信息 准则 
BIF(Bayesian Network Interchange Format): 贝 叶 斯 网 络 可 交换 格式 
bins: 箱 数 

boosting: 提升 

BP(Back Propagation): 反 向 传播 

cardinality: 重 数 

CART(Classification And Regression Tree): 分 类 与 回归 树 
categorical: 分 类 的 

confusion matrix: 混淆 矩阵 

coverage: 履 盖 率 

CPD(Conditional Probability Distribution): 条 件 概率 分 布 
CPT(Conditional Probability Table): 条 件 概率 表 
CSV(Comma-Separated Value): 逗号 分 隔 值 

CV(Cross Validation): 交叉 验 ; 

class: 类 (在 面向 对 象 的 上 下 文中 ) 

class: 类 别 (在 机 器 学 习 的 上 下 文中 ) 

classification: 分 类 

cliques: 团 


cluster: 簇 
clustering: 聚 类 
column: 列 
converters: 转换 器 
coverage: 履 盖 率 
DAG(Directed Acyclic Graph): 有 向 无 环 图 
dataset: 数据 集 
decision rules: 决策 规则 
decision trees: 决策 树 
dimension reduction: 维度 归 约 
discretization: 离散 化 
eager learner: 积极 学 习 器 
embedded: 嵌入 
ensemble learning: 集成 学 习 
epochs: 迭代 趟 数 
equal depth: 等 深 
equal frequency: 等 频 
equal width: 等 宽 
Experimenter: 实验 者 
Explorer: 探索 者 
extreme values: 极端 值 
evaluation: 评估 
field: 字段 
filter: 过 滤器 
F-Measure: 下 度量 
frequent itemset: 频繁 项 集 
FN(False Negative): 假 阴性 
FP(False Positive): 假 阳 性 
GC(Garbage Collector): 垃圾 回收 器 
genetic search: 遗传 搜索 
GUI: 图 形 用 户 界 务 
Hillclimbing:， 怜 山 法 
IANA(Internet Assigned Numbers Authority): 互联 网 地 址 指派 机 构 
instance: 实例 
instance-based learning: 基于 实例 的 学 习 
instances: 实例 集 
interquartile: 四 分 位 数 
interval: 区 间 
item sets: 项 集 
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JT(Junction Tree): 联合 树 

kernel: 核 

K-Means: 天 均值 算法 

kNN(k-Nearest Neighbours): 大 最 近邻 算法 

KnowledgeFlow: 知识 流 

lazy learner: 消极 学 习 器 

learning rate: 学 习 速 率 

linear: 线性 

LOO(Leave-One-Out): 留 一 法 

LWR(Locally Weighted Regression): 局 部 加 权 回 归 

MDL(Minimum Description Length): 最 小 描述 长 度 

measures: 度量 

momentum: 动量 

multilayer perceptron: 多 层 感 知 器 

NB(Naive Bayes): 朴素 贝 叶 斯 

Nearest Neighbor(NN): 最 近邻 

neural network: 神经 网 络 

normalization: 规范 化 

nominal: 标 称 

numeric: 数值 的 

nonlinear: 非 线性 

ordinal: 序数 

outliers: 离 群 值 

package manager: 包 管 理 器 

PCA: 主 成 分 分 析 

perspectives: 视角 

precision: 查 准 率 

qualitative: 定性 的 

quantitative: 定量 的 

random forest: 随机 森林 

ratio: 比率 

recall: 查 全 率 ， 召 回 率 

regression: 回归 

RepeatedHillClimber: 重复 爬山 法 

ROC(Receiver Operating Characteristic): 接收 者 操作 特征 


row: 行 
sample: 样本 
sampling: 抽样 


scatterplot: 散 点 图 


SGD(Stochastic Gradient Descent): 随机 梯度 下 降 
significance: 显著 性 

Simple CLI: 简单 命令 行 

simulated annealing: 模拟 退火 

SMO(Sequential Minimal Optimization): 序列 最 小 优化 
split: 拆 分 ， 划 分 ， 分 割 

standardization: 标准 化 

stratified sampling: 分 层 抽样 

supervised: 有 监督 的 

SVM(Support Vector Machine): 支持 向 量 机 

tabu search: 禁忌 搜索 

TAN(Tree-Augmented Naive Bayes): 树 增强 朴素 贝 叶 斯 
TF(Term Frequency): 词 频 

TF-IDF(Term Frequency-Inverse Document Frequency): 词 逆 向 文档 频率 
threshold: 闵 值 

tree: 树 

TN(True Negative): 真 阴性 

TP(Tme Positive): 真 阳性 

unsupervised: 无 监督 的 

variable transformation: 变量 变换 

visualization: 可 视 化 

weight: 权重 

wrapper: 包装 
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附录 B Weka 算法 介绍 
过 滤器 算法 介绍 


以 下 按 类 型 分 别 列 出 Weka 主要 过 滤器 的 使 用 方法 ， 过 滤器 按 英 文 名 称 的 字典 顺序 列 
出 ， 供 用 户 在 使 用 时 快速 参考 。 


杂项 过 滤器 


以 下 两 个 过 滤器 比较 特殊 ， 它 们 既 不 属于 无 监督 过 滤器 ， 也 不 属于 有 监督 过 滤器 。 

1) AllFilter 

AllFilter 过 滤器 是 一 个 实例 过 滤器 ， 它 让 所 有 实例 通过 过 滤器 但 不 进行 任何 修改 。 主 
要 用 于 测试 目的 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”debug( 调 试 ); 打开 调试 信息 的 输出 。 

e ”doNotCheckCapabilities( 不 检查 能 力 ): 如 果 设 置 为 True， 在 构建 过 滤器 之 前 将 不 

检查 过 滤器 能 力 。 谨 慎 使 用 该 选项 可 减少 运行 时 间 。 

注意 ， 由 于 几乎 所 有 的 过 滤器 都 有 debug 和 doNotCheckCapabilities 参数 ， 因 此 后 文 不 
再 对 这 两 个 参数 进行 重复 说 明 。 

2) MultiFilter 

MultiFilter 过 滤器 可 以 连续 实施 多 个 过 滤器 。 如 果 提 供 的 所 有 过 滤器 都 是 
StreamableFilters 过 滤器 ， 该 过 滤器 起 到 流 式 过 滤 的 作用 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

Filters( 过 滤器 ): 要 使 用 的 一 个 或 多 个 基 过 滤器 。 

无 监督 属性 过 滤器 

1) Add 

Add 过 滤器 在 数据 集 给 定位 置 插入 一 个 属性 ， 对 于 所 有 实例 其 值 都 标记 为 缺失 。 使 用 
通用 对 象 编辑 器 来 指定 属性 的 名 称 ， 以 及 标 称 型 属性 的 可 能 值 ， 该 属性 名 称 会 出 现在 属性 
列表 中 ， 日 期 型 属性 还 可 以 指定 日 期 的 格式 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ attributeIndex( 属 性 索引 ): 新 属性 的 插入 位 置 ， 从 1 开始 计数 ， 第 一 个 属性 还 可 以 
使 用 first 指定 ， 最 后 一 个 属性 还 可 以 使 用 last 指定 。 
attributeName( 属 性 名 称 ): 新 属性 的 名 称 。 
attributeType( 属 性 类 型 ): 要 生成 的 新 属性 的 类 型 。 
dateFormat( 日 期 格式 ): 日 期 值 的 格式 ， 参 见 ISO-8601 标准 。 
nominalLabels( 标 称 型 标签 ): 值 标签 的 列表 ， 仅 用 于 创建 标 称 型 属性 。 该 列表 必 
须 用 逗号 分 隔 ， 例 如 : red,green,blue。 如 果 列 表 为 空 ， 则 创建 数值 型 属性 。 


2) AddCluster 

AddCluster 过 滤器 添加 一 个 表示 簇 的 新 标 称 型 属性 ， 采 用 给 定 聚 类 算法 将 簇 分 配给 每 
个 实例 。 

AddCluster 过 滤器 先 将 一 种 聚 类 算法 应 用 于 数据 ， 然 后 再 进行 过 滤 。 可 在 第 一 次 处 理 
数据 时 构建 聚 类 模型 ， 也 可 由 用 户 指定 序列 化 的 聚 类 器 模型 文件 。 用 户 通过 对 象 编辑 器 选 
择 聚 类 算法 ， 其 设置 方式 与 过 滤器 一 样 。AddCluster 对 象 编辑 器 通过 自己 界面 中 的 Choose 
按钮 来 选择 聚 类 器 ， 用 户 单 击 按钮 右边 的 文本 框 ， 会 开启 另外 一 个 对 象 编辑 器 对 话 框 ， 在 
新 对 话 框 中 设置 聚 类 器 的 参数 ， 必 须 填写 完整 后 才能 返回 AddCluster 对 象 编辑 器 。 一 旦 用 
户 选 定 一 个 聚 类 器 ，AddCluster 会 为 每 个 实例 指定 一 个 徐 号 ， 作 为 实例 的 新 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e clusterer( 聚 类 器 ): 指定 聚 类 算法 的 聚 类 器 。 支 持 的 聚 类 器 包括 Canopy、 
Cobweb 、 EM 、 FarthestFirst 、 FilteredClusterer 、 HierarchicalClusterer 、 
MakeDensityBaseClusterer 和 SimpleMeans。 

e@ ”serializedClustererFile( 序 列 化 聚 类 器 文件 ): 一 个 文件 ， 其 中 包含 所 构建 聚 类 器 的 
序列 化 模型 。 

e@ ”ignoredAttributeIndices( 忽 略 的 属性 索引 ): 聚 类 器 忽略 的 属性 范围 。 例 如 : first- 
3,5,9-last。 

3) AddExpression 

AddExpression 过 滤器 通过 将 一 个 数学 函数 应 用 于 已 有 数值 型 属性 而 生成 一 个 新 属性 。 
表达 式 可 包括 属性 索引 和 数值 常量 ， 支 持 四 则 运算 符 +、-、*、/ 和 ^， 函 数 log、abs、 
cos、exp、sqrt、floor、ceil、rint、tan、sin 以 及 左右 括号 。 属 性 可 通过 索引 加 前 级 a 确 
定 ， 例 如 : a7 指 第 七 个 属性 。 表 达 式 范例 如 下 : 


al^2*a5/log (a7*4.0) 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e@ ”expression( 表 达 式 ): 要 应 用 的 数学 表达 式 。 例 如 : al^2*a5/log(a7*4.0)。 
e ”name( 名 称 ): 新 属性 的 名 称 。 如 果 该 参数 值 为 expression， 则 新 属性 将 命名 为 所 提 
供 的 表达 式 。 注 意 ， 这 里 在 线 文档 中 说 明 是 当 debug 参数 为 True 时 ， 新 属性 命名 
为 表达 式 ， 与 源 代 码 不 符 ， 估 计 在 线 文档 有 误 。 
4) AddID 
AddID 过 滤器 在 属性 列表 中 用 户 指 定 索引 位 置 插入 一 个 数字 标识 符 属性 ， 为 数据 集 的 
每 个 实例 分 配 一 个 唯一 的 ID。 数 字 标 识 符 属 性 在 追踪 单个 实例 时 非常 有 用 ， 尤 其 是 在 使 用 
不 同方 式 对 数据 集 进行 处 理 以 后 ， 例 如 ， 由 其 他 过 滤器 进行 转换 或 经 过 随机 排序 后 的 
情形 。 
通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 
e attributeName( 属 性 名 称 ): 新 属性 的 名 称 。 
。 ”IDIndex(ID 索引 ): 新 属性 将 插入 的 位 置 ， 从 1 开始 计数 。 支 持 first 和 last 作为 有 
效 索 引 。 
5) AddNoise 
AddNoise 过 滤器 用 于 以 一 定 百分比 的 概率 来 更 改 给 定 属性 的 值 。 属 性 必须 是 标 称 型 
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内 ， 缺 失 值 可 以 视 为 固有 值 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndex( 属 性 索引 ): 要 改变 的 属性 索引 。 

e@ useMissing( 使 用 缺失 值 ): 如 果 要 使 用 缺失 值 ， 则 将 本 选项 设置 为 True。 

@ ”percent( 百 分 比 ): 数据 引入 噪声 的 百分比 。 

e@ ”randomSeed( 随 机 种 子 ): 随机 数 种 子 。 

6) AddUserFields 

AddUserFields 过 滤器 用 于 增加 用 户 指定 类 型 和 常数 值 的 新 属性 。 可 以 创建 的 属性 类 型 
有 数值 型 、 标 称 型 、 字 符 串 型 和 日 期 型 。 可 以 使 用 环境 变量 来 设置 属性 名 称 和 属性 值 。 日 
期 型 属性 可 以 指定 一 个 格式 化 字符 串 对 所 提供 的 日 期 值 进行 解析 。 另 外 ， 可 以 通过 提供 特 
殊 字 符 串 “now” 作 为 日 期 型 属性 值 ， 指 定 当前 时 间 戳 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

attributeSpecs (属性 规格 ): 创建 新 属性 的 规格 说 明 ， 包 括 Attribute name( 属 性 名 称 )、 
Attribute type( 属 性 类 型 )、Date format( 日 期 格式 ) 和 Attribute value( 属 性 值 )。 

7) AddValues 

如 果 属 性 标签 缺失 ， 可 用 AddValues 过 滤器 为 该 属性 添加 给 定 标签 列表 。 标 签 能 以 升 
序 的 方式 进行 排序 。 如 果 没 有 提供 标签 ， 则 只 能 对 已 有 标签 进行 排序 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndex( 属 性 索引 ): 要 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 都 是 

有 效 值 。 

e@ labels( 标 签 );， 以 逗号 分 隔 的 用 于 添加 的 标签 列表 。 

e ”sort( 排 序 ): 是 否 将 标签 按 字母 顺序 排序 。 

8) Center 

Center 过 滤器 将 给 定 的 数据 集 的 所 有 数值 型 属性 的 中 心 通过 平移 运算 设置 为 零 均值 ， 
不 包括 类 别 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

ignoreClass( 忽 略 类 别 属性 )， 布 尔 型 ， 默 认为 False。 如 果 设 置 为 True， 则 在 过 滤器 应 
用 之 前 ， 和 暂时 取消 类 别 索 引 的 设置 ， 即 包括 类 别 属性 的 所 有 数值 型 属性 都 参与 中 心 值 
平移 。 

9) ChangeDateFormat 

ChangeDateFormat 过 滤器 用 于 更 改 日 期 型 属性 使 用 的 日 期 格式 。 该 过 滤器 最 适合 用 于 
将 日 期 型 属性 转换 为 精度 差 一 些 的 格式 。 例 如 ， 使 用 D 格式 化 字符 串 将 一 个 绝对 日 期 转换 
为 年 内 的 第 几 天 ， 等 等 。 改 变 格式 化 字符 串 ， 也 相应 改变 了 能 为 新 格式 所 解析 的 日 期 值 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndex( 属 性 索引 ): 要 处 理 的 属性 。 此 属性 必须 是 日 期 类 型 ，first 和 last 均 
为 有 效 值 。 

e ”dateFormat( 日 期 格式 ): 要 改变 的 日 期 格式 。 应 该 为 Java 的 SimpleDateFormat 类 
能 够 解析 的 格式 。 


10) ClassAssigner 
ClassAssigner 过 滤器 能 够 设置 或 清除 类 别 索引 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
classIndex( 类 别 索 引 ): 类 别 属性 的 索引 ， 从 1 开始 计数 。first 和 last 也 是 有 效 值 。 如 
果 为 “0”， 则 清除 类 别 索引 。 
11) ClusterMembership 
ClusterMembership 过 滤器 应 用 指定 的 基于 密度 的 聚 类 器 生成 能 隶属 度 值 ， 以 形成 新 的 
属性 。 过 滤 后 的 实例 由 簇 隶 属 度 值 加 上 类 别 属性 (如 果 在 输入 数据 中 进行 过 设置 ) 构 成 。 如 
果 设 置 了 ( 标 称 值 的 ) 类 别 属性 ， 育 类 器 将 针对 每 个 类 别 单独 运行 ， 否 则 ， 聚 类 操作 将 忽略 
设置 的 类 别 属性 以 及 用 户 指 定 要 忽略 的 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e “densityBasedClusterer( 基 于 密度 的 聚 类 器 ): 用 于 生成 实例 的 隶属 度 值 的 聚 类 器 。 
支持 的 聚 类 器 有 EM 和 MakeDensityBasedClusterer。 
e@ ”ignoredAttributeIndices( 忽 略 属性 索引 ): 希望 聚 类 器 忽略 的 属性 范围 。 例 如 : first- 
3,5,9-last。 
12) Copy 
Copy 过 滤器 复制 一 定 范围 内 的 现 有 属性 ， 常 用 于 在 实验 过 程 中 使 用 过 滤器 对 属性 值 进 
行 改写 时 ， 保 留 一 个 副本 。 多 个 属性 可 以 用 一 个 表达 式 一 起 复制 ， 例 如 ， 表 达 式 “1-3” 表 
示 前 三 个 属性 ， 表 达 式 “first-3,5,9-last” 表 示 第 1,2,3,5,9,10,11,12,… 个 属性 。 可 以 使 用 反 
选 ， 以 选中 那些 除了 指定 属性 以 外 的 所 有 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
@ ”invertSelection( 反 选 ); 设置 选择 与 反 向 选择 的 动作 。 如 果 设 置 为 False， 只 复制 那 
些 指定 的 属性 ， 如 果 设 置 为 True， 只 复制 那些 未 指定 的 属性 。 
13) Discretize 
Discretize 过 滤器 用 于 离散 化 ， 即 将 数值 型 属性 转换 为 标 称 型 属性 ， 可 以 指定 属性 、 分 
箱 数量 、 是 否 优化 分 箱 数量 、 输 出 二 元 化 属性 、 使 用 等 宽 ( 默 认 值 ) 方 式 还 是 等 频 方式 进行 
分 箱 处 理 、 是 否 忽略 类 别 属性 。 
通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e bins( 箱 数 ): 分 箱 数量 。 
e@ desiredWeightOfImstancesPerInterval( 每 一 间隔 实例 期 望 权 重 ): 等 频 分 箱 时 ， 设 置 
每 一 个 间隔 内 实例 的 期 望 权重 。 
e findNumBins( 查 找 箱 数 ): 使 用 留 一 法 (leave-one-out) 策 略 优化 等 宽 分 箱 。 不 能 用 于 
等 频 分 箱 。 
e ”ignoreClass( 忽 略 类 别 ):， 在 应 用 过 滤器 之 前 ， 暂 时 取消 类 别 索引 。 
e@ invertSelection( 反 选 ): 设置 选择 属性 模式 。 如 果 设 置 为 False， 只 离散 化 选 定 范围 
内 的 (数值 型 ) 属 性 ; 如 果 设 置 为 True， 只 离散 化 没有 选 定 的 属性 。 
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e ”makeBinary( 二 元 化 ): 使 结果 属性 二 元 化 。 
e ”useBinNumbers( 使 用 箱 号 码 ): 布尔 型 ， 指 定 是 否 使 用 箱 号 码 (如 BXofY)， 而 不 是 
离散 化 的 属性 范围 。 
e@ ”useEqualFrequency( 使 用 等 频 ): 布尔 型 ， 如 果 设 置 为 True， 则 使 用 等 频 分 箱 ， 而 
不 使 用 等 宽 分 箱 。 

14) FirstOrder 

FirstOrder 过 滤器 对 一 定 范 围 内 的 数值 型 属性 应 用 一 阶 差分 算 子 。 算 法 为 ， 将 N 个 数 
值 型 属性 替换 为 N-1 个 数值 型 属性 ， 其 值 是 原来 实例 中 连续 属性 值 之 差 ， 即 新 属性 值 等 于 
后 一 个 属性 值 减 去 前 一 个 属性 值 。 例 如 ， 原 始 属性 值 为 0.1, 0.2, 0.3, 0.1, 0.3， 新 的 属性 值 
为 010120202。 

按 数字 顺序 使 用 属性 范围 。 即 如 果 指 定 的 范围 是 “7-113-5”， 也 按照 
“3,4,5,7,8,9,10,11” 排 序 的 属性 进行 使 用 ， 而 不 按照 “7,8,9,10,11,3,4,5” 的 顺序 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，first 和 
last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

15) InterquartileRange 

InterquartileRange 过 滤器 添加 新 属性 ， 以 指示 实例 的 值 是 否 为 离 群 值 或 极端 值 。 离 群 
值 和 极端 值 定 义 为 基于 属性 值 的 第 25 个 与 第 75 个 百 分 位 数 的 间距 。 如 果 用 户 指定 的 极端 
值 系数 和 四 分 位 距 的 乘积 值 高 于 第 75 个 百 分 位 数 ， 或 低 于 第 25 个 百 分 位 数 ， 该 值 就 标记 
为 极端 值 。 也 有 超出 上 述 范围 标记 为 离 群 值 但 不 是 极端 值 的 情况 。 可 以 设置 该 过 滤器 ， 如 
果 某 个 实例 的 任意 属性 值 认为 是 离 群 值 或 极端 值 ， 或 产生 离 群 极端 的 指标 ， 可 以 标记 该 实 
例 为 离 群 值 或 极端 值 。 也 可 以 将 所 有 极端 值 标记 为 离 群 值 ， 并 输出 与 中 位 数 偏离 多 少 个 四 
分 位 数 的 属性 。 该 过 滤器 忽略 类 别 属性 。 

假定 使 用 如 下 符号 : 

Q1=25% 四 分 位 数 

Q3=75% 四 分 位 数 

IQR= 四 分 位 距 ，Q1 和 Q3 之 差 


OF= 离 群 值 因子 
EVF= 极 端 值 因子 
则 离 群 值 和 极端 值 可 以 采用 以 下 公式 求 出 。 
离 群 值 ; 
Q3+OFxIQR <x <= Q3+EVFxIQR 
或 者 
Q1-EVFxIQR <—x < Q1-OFxIQR 
极端 值 : 
x>Q3+EVFxIQR 
或 者 
x < QI-EVFxIQR 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
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attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
detectionPerAttribute( 检 测 每 个 属性 ): 每 个 数值 型 属性 都 生成 “ 离 群 值 /极端 值 ” 
属性 对 ， 而 不 是 将 全 部 数值 型 属性 生成 一 个 单一 数值 型 属性 对 。 
extremeValuesAsOnutliers( 极 端 值 作为 离 群 值 ): 是 否 将 极端 值 标记 为 离 群 值 。 
extremeValuesFactor( 极 端 值 因子 ): 用 于 检测 极端 值 阔 值 的 因子 。 
outlierFactor( 离 群 值 因子 ): 用 于 检测 离 群 值 阔 值 的 因子 。 
outputOffsetMultiplier( 输 出 偏 移 乘 数 ): 生成 一 个 额外 属性 Offset， 其 值 为 中 位 数 
与 乘 数 的 函数 值 ， 公 式 为 value = median + multiplier x IQR， 即 : 值 = 中 位 数 + 
“ 乘 数 ” x IQR。 


16) KerelFilter 

KernelFilter 过 滤器 将 给 定 预测 变量 集 转 换 为 核算 阵 ， 类 别 值 保持 不 变 。 新 数据 集 包含 
的 实例 数量 与 转换 前 一 样 ， 其 属性 值 保存 一 对 原 实例 的 核 函数 运算 结果 。 

默认 情况 下 ， 数 据 预 处 理 采用 Center 过 滤器 ， 用 户 也 可 以 选择 任何 过 滤器 。 注 意 ， 用 
户 必须 小 心 ， 以 免 过 滤器 无 意 中 改 变 类 别 属性 。 可 使 用 weka.filters.AllFilter 过 滤器 来 禁用 


预 处 理 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ ”checksTurnedOff (关闭 检查 ): 关闭 耗 时 检查 ， 请 谨慎 使 用 。 

e initFile( 初 始 化 文件 ): 用 于 过 滤器 初始 化 的 数据 集 。 

e ”initFileClassIndex( 类 别 索引 初始 化 文件 )， 数据 集 的 类 别 索引 ， 用 于 过 滤器 的 初始 
化 。first 和 last 都 是 有 效 值 。 

e kernel( 核 ): 使 用 的 核 。 支 持 的 核算 法 包括 NormalizedPolyKemel、PolyKernel、 
PrecomputedKernel MatrixKernel、Puk、RBFKemel 和 StringKemel。 

e@ ”kernelFactorExpression( 核 因子 表达 式 ): 核 因 子 ， 使 用 A 表示 属性 索引 ，N 表示 
实例 索引 。 

e@ preprocessing( 预 处 理 ): 设置 用 于 预 处 理 的 过 滤器 ， 如 果 没 有 预 处 理 ， 则 使 用 
AllFilter 过 滤器 。 支 持 Weka 实现 的 预 处 理 算法 。 

17) MakeIndicator 


MakeIndicator 过 滤器 将 标 称 型 属性 更 换 为 指示 器 ( 即 二 元 属性 )， 并 创建 为 一 个 新 数据 
集 。 在 新 数据 集中 ， 值 1 分 配给 属性 值 在 指定 范围 内 的 实例 ， 值 0 分 配给 其 他 实例 。 默 认 
将 布尔 型 属性 编码 为 数值 型 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


attributeIndex( 属 性 索引 ): 设置 应 该 蔡 换 哪些 属性 的 指示 器 。 这 些 属性 必须 是 标 称 
型 属性 。 

numeric( 是 否 数值 ): 确定 输出 的 指示 器 属性 是 否 为 数值 型 。 如 果 设 置 为 False， 输 
出 属性 将 是 标 称 型 ， 正 例 输 出 属性 值 为 pos_ XXX， 负 例 输出 为 neg_XXX。 
valueIndices( 值 索引 ): 指定 要 操作 的 标 称 值 范围 。 属 性 索引 列表 采用 逗号 分 隔 ， 
编号 从 1 开始 计数 。first 和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : 
first-3,5,6-10.last。 
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18) MathExpression 

MathExpression 过 滤器 根据 给 定 的 表达 式 修 改 数值 型 属性 。 该 过 滤器 与 AddExpression 
类 似 ， 但 它 只 是 在 原 地 修改 现 有 属性 ， 而 不 是 创建 新 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


expression( 表 达 式 ): 指定 应 用 的 表达 式 。 字 母 “A” 指 要 处 理 的 属性 值 。MIN、 
MAX、MEAN、SD 分 别 指正 在 处 理 的 属性 的 最 小 值 、 最 大 值 、 平 均值 和 标准 偏 
差 。 其 他 属性 值 ( 仅 限 数值 型 ) 可 通过 变量 A1,A2,A3,… 进 行 访问 。 支 持 的 操作 符 有 
+、 —、*、/、pow、log、abs、cos、exp、sqrt、 tan、sin、ceil、floor、rint、(、)、 
A、MEAN、MAX、MIN、SD、COUNT、SUM、SUMSQUARED、ifelse。 例 如 : 


povw (A, 6) / (MEAN+MAX) *ifelse (A<0, 0, sqrt (R) )+ifelse(![R>9 && A<15]) 


ignoreClass( 忽 略 类 别 ): 在 应 用 过 滤器 之 前 ， 将 暂时 取消 设置 类 别 索 引 。 
ignoreRange( 忽 略 范 围 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 采用 逗号 分 隔 ， 
first 和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
invertSelection( 反 选 ): 设置 选择 与 反 向 选择 的 动作 。 如 果 设 置 为 True， 只 修改 指 
定 的 属性 ， 如 果 设 置 为 False， 指 定 的 属性 将 不 会 被 修改 。 


19) MergeInfrequentNominalValues 
MergeInfrequentNominalValues 过 滤器 将 指定 标 称 型 属性 中 出 现 次数 足 够 低 的 值 进行 


合并 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


attributeIndex( 属 性 索引 ): 设置 处 理 的 属性 范围 (或 其 反 向 选择 )。 属 性 索引 列表 采 
用 逗号 分 隔 ， 编 号 从 1 开始 计数 。first 和 last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 
范围 。 例 如 : first-3,5,6-10,last。 

invertSelection( 反 选 ): 设置 是 否 对 所 选择 的 属性 进行 处 理 ， 或 者 对 其 他 所 有 属性 
( 即 反 向 选择 ) 进 行 处 理 。 

minimumFrequency( 最 小 次 数 ): 能 保留 值 必须 出 现 的 最 小 次 数 。 
useShortIDs( 使 用 短 ID): 如 果 为 True， 合 并 属性 值 将 使 用 短 ID。 


20) MergeManyValues 
MergeManyValues 过 滤器 将 指定 标 称 型 属性 的 多 个 值 合并 为 一 个 值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


attributeIndex( 属 性 索引 ): 设置 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 都 
是 有 效 值 。 

ignoreClass( 忽 略 类 别 ): 在 应 用 过 滤器 之 前 ， 将 暂时 取消 设置 类 别 索引 。 
mergeValueRange( 合 并 值 范围 ): 要 进行 合并 的 值 的 范围 。 

label( 标 签 ): 合并 后 值 的 新 标签 。 


21) MergeTwoValues 

MergeTwoValues 过 滤器 将 标 称 型 属性 的 两 个 值 合并 为 一 个 值 ， 需 要 指定 要 合并 的 两 
个 值 的 索引 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


e attributeIndex( 属 性 索引 ): 设置 要 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 


都 是 有 效 值 。 


e@ firstValueIndex( 第 一 个 值 索 引 ): 设置 要 合并 的 第 一 个 值 ，first 和 last 都 是 有 效 值 。 
e ”secondValueIndex( 第 二 个 值 索引 ): 设置 要 合并 的 第 二 个 值 ，first 和 last 都 是 有 效 值 。 


22) NominalToBinary 


NominalToBinary 过 滤器 将 全 部 标 称 型 属性 转换 为 二 元 的 数值 型 属性 。 如 果 类 别 属性 


是 标 称 型 ， 将 使 用 每 个 值 对 应 一 个 属性 的 方法 ， 即 具有 个 值 的 属性 将 转换 为 个 二 元 属 


性 ， 如 果 不 给 定 参数 -A， 二 元 属性 将 仍然 保持 二 元 ; 如 果 类 别 属性 是 数值 型 ， 用 户 可 能 想 


使 用 此 过 滤器 的 有 监督 版 本 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


。 ”attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 


first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : 


first-3,5,6-10,last。 


@ binaryAttributesNominal( 二 元 属性 为 标 称 型 ): 布尔 型 ， 指 示 结 果 的 二 元 属性 是 否 


为 标 称 型 。 如 果 为 True， 编 码 结果 为 t 或 如 否则 为 1 或 0。 
e@ ”invertSelection( 反 选 ): 布尔 型 ， 设 置 属 性 选择 模式 。 如 果 为 


False， 只 有 选 定 范围 


内 的 标 称 型 属性 进行 二 元 化 ， 如 果 为 True， 只 有 没有 选 定 的 属性 进行 二 元 化 。 
e@ ”transformAllValues( 转 换 全 部 值 ): 布尔 型 ， 设 置 是 否 将 全 部 标 称 值 都 转换 为 新 属 


性 ， 包 括 超 过 两 种 标签 的 值 。 
23) NominalToString 


NominalToString 过 滤器 将 标 称 型 属性 转换 成 字符 串 型 属性 ， 即 将 指定 数量 的 标 称 型 属 


性 值 转换 成 未 指定 数量 的 字符 串 值 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 转 换 指 定 范 和 上 
非 标 称 型 属性 则 保持 不 变 ，first 和 last 都 是 有 效 值 。 

24) Normalize 


目 内 的 标 称 型 属性 ， 但 


Normalize 过 滤器 规范 化 给 定数 据 集中 的 全 部 数值 ， 如 果 已 设置 类 别 属 性 则 除外 。 默 
认 情 况 下 ， 用 于 计算 规范 化 间隔 的 数据 其 结果 值 将 在 [0.1] 区 间 内 。 通 过 改变 缩放 和 平移 参 


数 ， 可 以 改变 计算 结果 。 例 如 ， 设 置 scale=2.0 并 且 translation=-1.0， 
[-1,+1] 范 围 内 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


能 将 结果 值 改 变 为 在 


。 ijgnoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索引 。 


。 “scale( 缩 放 比 例 ): 输出 范围 的 缩放 比例 因子 ， 默 认 值 为 1。 


etranslation( 平 移 ): 输出 范围 的 平移 参数 ， 默 认 值 为 0， 即 不 做 平移 。 


25) NumericCleaner 


NumericCleaner 过 滤器 “净化 ”过 小 、 过 大 或 非常 接近 于 一 定 值 (如 0) 的 数值 型 数据 ， 


并 将 这 些 值 设置 为 预先 定义 的 默认 值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


e ”attributeIndices( 属 性 索引 ): 指定 净化 (cleansing) 操 作 的 属性 范围 。 范 围 内 的 任何 非 


数值 型 属性 将 保持 不 变 ，first 和 last 都 是 有 效 值 。 
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性 ， 


closeTo( 接 近 ): 该 参数 为 数值 ， 检 查 是 否 过 于 接近 这 些 值 ， 并 蔡 换 为 默认 值 。 
closeToDefault( 接 近 默 认 值 ): 用 于 替换 过 于 接近 指定 值 的 默认 值 。 
closeToTolerance( 接 近 容 差 ): 低 于 该 值 就 认为 是 接近 。 

decimals( 位 数 ): 四 舍 五 入 的 小 数位 数 ，-1 表示 没有 舍 入 。 
includeClass( 包 含 类 别 ): 如 果 为 False， 净 化 过 程 将 忽略 类 别 属性 。 
invertSelection( 反 选 ): 如 果 为 True， 反 向 选择 列 。 

ImaxDefault( 最 大 默认 值 ): 最 大 默认 值 ， 用 于 替换 超出 最 大 阔 值 的 值 。 
maxThreshold( 最 大 阔 值 ): 最 大 阔 值 ， 超 出 该 值 将 替换 为 最 大 默认 值 。 
minDefault( 最 小 默认 值 ): 最 小 默认 值 ， 用 于 蔡 换 低 于 最 小 阔 值 的 值 。 
minThreshold( 最 小 阔 值 ): 最 小 阔 值 ， 低 于 该 值 将 蔡 换 为 最 小 默认 值 。 

26) NumericToBinary 

NumericToBinary 过 滤器 采用 将 非 零 值 变 为 1 的 办 法 将 所 有 数值 型 属性 转换 成 二 元 属 
如 果 设 置 了 类 别 属性 则 除外 。 如 果 数 值 型 属性 的 值 恰 好 为 零 ， 新 属性 的 值 也 将 是 零 ; 


如 果 数 值 型 属性 的 值 丢失 ， 新 属性 的 值 也 将 丢失 。 否 则 ， 新 属性 的 值 将 是 1。 新 属性 是 标 
称 型 。 


表 ， 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

e@ ”ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 将 暂时 取消 设置 类 别 索 引 。 

e@ ”invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选中 的 (数值 型 ) 属 
性 才 会 被 “二 值 化 ”; 如 果 为 True， 只 有 没 被 选中 的 属性 才 会 被 “二 值 化 ”。 

27) NumericToNominal 

NumericToNominal 过 滤器 通过 简单 地 添加 某 个 数值 型 属性 的 所 有 观测 值 到 标 称 值 列 

将 数值 型 属性 转换 为 标 称 型 属性 。 不 像 离 散 化 ， 该 过 滤器 只 是 将 全 部 数字 值 添加 到 该 


属性 的 标 称 值 列表 中 。 在 使 用 CSV 导入 后 ， 如 需要 强制 将 某 些 属性 转换 为 标 称 型 ， 该 过 
滤器 非常 有 有用。 例如， 转换 值 在 1 一 5 范围 内 的 类 别 属性 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

e ”invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范围 内 的 数值 
型 属性 才 进 行 “ 标 称 化 ”; 如 果 为 True， 只 有 非 选 定 的 属性 才 进 行 “ 标 称 化 ”。 

28) NumericTransform 

NumericTransform 过 滤器 使 用 一 个 给 定 的 转换 方法 (Java 函数 ) 转 换 数值 型 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 去 号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

e@ ”className(Java 类 名 称 ): Java 类 名 称 ， 包 含 用 于 转换 的 方法 。 

e@ ”invertSelection( 反 选 ): 是 否 要 反 向 选择 给 定 的 属性 范围 。 

e ”methodName( 方 法 名 称 ): 转换 的 方法 名 称 。 


29) Obfuscate 

Obfuscate 是 一 个 简单 的 实例 过 滤器 ， 用 于 对 关系 、 全 部 属性 名 称 ， 以 及 所 有 标 称 型 属 
性 值 进行 重 命名 ， 对 数据 集 进行 模糊 处 理 ， 其 目的 主要 是 交换 敏感 数据 集 。 目 前 尚 不 能 处 
理 字符 串 型 属性 和 关系 型 属性 。 

该 过 滤器 只 需要 设置 debug 和 doNotCheckCapabilities 参数 。 

30) PartitionedMultiFilter 

PartitionedMultiFilter 是 一 个 元 过 滤器 ， 该 过 滤器 对 指定 范围 内 的 属性 子 集 应 用 多 个 过 

滤器 ， 并 汇集 输出 到 一 个 新 数据 集 。 不 包括 在 所 选 范围 内 的 属性 ， 可 以 从 输出 中 选择 保留 
或 者 删除 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ ”filters( 过 滤器 ): 使 用 的 基 过 滤器 。 

e ”ranges( 范 围 ): 使 用 的 属性 范围 ，inv(..) 表 示 反 选 范围 。 

e@ ”removeUnused( 删 除 未 用 ): 如 果 为 True， 则 从 输出 中 删除 未 使 用 的 属性 (没有 在 指 
定 范围 内 的 属性 )。 

31) PKIDiscretize 

PKIDiscretize 过 滤器 使 用 等 频 分 箱 离散 化 数值 型 属性 ， 其 中 ， 箱 的 数目 等 于 非 缺 失 值 

数量 的 平方 根 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
bins( 箱 ): 忽略 。 
desiredWeightOfInstancesPerInterval( 每 个 间隔 期 望 的 实例 权重 ): 设置 等 频 分 箱 中 
每 个 间隔 期 望 的 实例 权重 。 

e ”findNumBins( 搜 索 箱 数 )， 忽略。 

e ”ignoreClass( 忽 略 类 别 )， 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索 引 。 

e@ ”invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范围 内 的 ( 数 
值 型 ) 属 性 被 离散 化 ， 如 果 为 True， 只 有 非 选 定 的 属性 被 离散 化 。 

e ”makeBinary( 二 元 化 ): 使 结果 属性 二 元 化 。 

e ”useBinNumbers( 使 用 箱 号 码 ): 使 用 箱 号 码 (例如 BXofY)， 而 不 是 离散 化 的 属性 
范围 。 

e ”useEqualFrequency( 使 用 等 频 ): 总 是 设置 为 True。 

32) PrincipalComponents 

PrincipalComponents 过 滤器 进行 数据 的 主 成 分 分 析 和 转换 。 

通过 选择 原始 数据 的 方差 占 到 一 定 百分比 (默认 值 为 0.95(95%)) 的 足够 的 特征 向 量 ， 以 

完成 降 维 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

ecenterData( 中 心 化 数据 ): 布尔 型 ， 中 心 化 (而 不 是 标准 化 ) 数 据 。PCA( 主 成 分 分 析 ) 

协 方差 矩阵 (而 不 是 相关 和 矩阵) 计算 。 
e ”maximumAttributeNames( 最 大 属性 名 称 ): 包含 转换 属性 名 称 的 属性 的 最 大 数量 。 
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e maximumAttributes( 最 大 属性 ): 要 保留 的 主 成 分 属性 的 最 大 数量 ， 默 认 值 为 -1， 
对 数量 不 加 限制 。 
e ”varianceCovered( 差 分 占 比 ): 保留 足够 的 主 成 分 属性 ， 考 虑 到 差分 所 占 的 比例 。 
默认 值 为 0.95。 
33) RandomProjection 
RandomProjection 过 滤器 通过 使 用 以 列 为 单位 长 度 的 随机 矩阵， 将 数据 投影 到 一 个 低 
维 子 空间 ， 以 此 来 降低 数据 维 数 。 类 似 于 PCA，RandomProjection 过 滤器 在 减少 数据 中 属 
性 数目 的 同时 ， 尽 可 能 保留 其 差异 ， 但 计算 代价 少 得 多 。 
在 降 维 之 前 ， 该 过 滤器 先 应 用 NominalToBinary 过 滤器 将 全 部 属性 都 转换 成 数值 型 ， 
保持 类 别 属性 不 变 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e distribution( 分 布 ): 用 于 计算 随机 和 矩阵 的 分 布 。 
Sparsel 的 计算 公式 为 
sqrt(3) * { -1 with prob(1/6), 
0 with prob (2/3), 
+1 with prob(1/6) } 
Sparse2 的 计算 公式 为 
{ -1 with prob(1/2), 
+1 with prob(1/2) } 
e ”numberOfAttributes( 属 性 数量 ):， 数据 应 该 减少 到 的 维 数 ， 即 属性 的 数量 。 
e@ ”percent( 百 分 比 ): 数据 集中 ， 包 括 类 别 属性 在 内 的 属性 应 该 减少 到 的 百分比 ( 属 
性 )。 如 果 本 选项 存在 并 大 于 零 ， 则 忽略 numberOfAttributes 选项 。 
e ”seed( 随 机 种 子 ): 随机 数 发 生 器 使 用 的 随机 种 子 ， 用 于 产生 随机 和 矩阵 。 
e@ replaceMissingValues( 蔡 换 缺 失 值 ): 是 否 设置 过 滤器 使 用 wekafilters.unsupervised. 
attribute.ReplaceMissingValues 以 替换 缺失 值 。 
34) RandomSubset 
RandomSubset 过 滤器 选择 属性 的 一 个 随机 子 集 ， 可 以 用 绝对 数值 或 百分比 指定 抽取 的 
范围 。 输 出 的 新 数据 集 总 是 包含 类 别 属性 并 作为 最 后 一 个 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”numAttributes( 属 性 数量 ): 选择 的 属性 数量 。 如 果 为 百分比 ， 值 必须 小 于 1; 如 果 
为 属性 的 绝对 数量 ， 值 必须 大 于 等 于 1。 
e@ ”seed( 种 子 ): 随机 数 发 生 器 的 种 子 值 。 
35) Remove 
Remove 过 滤器 删除 数据 集中 指定 范围 的 属性 。 如 果 invertSelection 选项 设置 为 True， 
并 且 没 有 指定 属性 列 索引 按 升序 排序 ， 则 重新 排序 其 余 属 性 。 例 如 ， 某 数据 集 有 Al、 
A2、A3 和 A4 四 个 属性 ， 使 用 Remove -V -R 1.4.3 命令 ， 则 剩余 属性 为 Al1、A4 和 A3。 
注意 ， 剩 余 属性 是 按照 -R 选项 排序 的 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
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first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e invertSelection( 反 选 ): 确定 是 选择 还 是 排除 操作 。 如 果 设 置 为 True， 只 保留 指定 
的 属性 ， 如 果 设 置 为 False， 将 删除 指定 的 属性 。 
36) RemoveByName 
RemoveByName 过 滤器 删除 其 名 字 与 正则 表达 式 相 匹配 的 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”expression( 表 达 式 ): 用 于 匹配 属性 名 称 的 正则 表达 式 。 
e@ ”invertSelection( 反 选 ): 确定 是 选择 还 是 排除 操作 。 如 果 设 置 为 True， 只 保留 指定 
的 属性 ， 如 果 设 置 为 False， 将 删除 指定 的 属性 。 
37) RemoveType 
RemoveType 过 滤器 删除 给 定 类 型 ( 标 称 型 、 数 字 型 、 字 符 串 型 或 日 期 型 ) 的 全 部 属性 。 
该 过 滤器 会 跳 过 类 别 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”attributeType( 属 性 类 型 )， 要 删除 的 属性 类 型 。 
e@ ”invertSelection( 反 选 ): 确定 是 选择 还 是 排除 操作 。 如 果 设置 为 True， 只 保留 指定 
的 属性 ， 如 果 设 置 为 False， 将 删除 指定 的 属性 。 
38) RemoveUseless 
RemoveUseless 过 滤器 删除 全 部 值 都 不 变 的 常量 属性 ， 以 及 差别 较 大 的 标 称 型 属性 ， 
即 在 全 部 实例 中 值 都 各 不 相同 的 标 称 型 属性 。 用 户 可 以 通过 确定 不 相同 的 值 的 数量 占 值 总 
量 的 百分比 来 决定 可 以 容忍 的 变化 度 ， 以 决定 是 否 删除 一 个 属性 。 该 过 滤器 会 跳 过 类 别 属 
性 ， 默 认 情况 下 ， 最 后 一 个 属性 是 类 别 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
maximumVariancePercentageAllowed( 人 允许 的 最 大 偏差 百分比 ): 设置 删除 标 称 型 属性 最 
大 偏差 的 阔 值 ， 默 认 值 为 99.0。 具 体 而 言 ， 如 果 对 于 某 个 属性 ，(number_of distinct values/ 
total number_of values*100) 大 于 该 阔 值 ， 则 删除 该 属性 。 
39) RenameAttribute 
RenameAttribute 过 滤器 用 于 重 命名 属性 名 称 。 
可 以 用 正则 表达 式 进行 匹配 和 蔡 换 操作 ， 更 多 有 关 正 则 表达 式 的 信息 请 参阅 
java.util.regex.Pattern 类 的 Javadoc 文档 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e find( 查 找 ): 属性 名 称 必须 匹配 的 正则 表达 式 。 
e ”replace( 蔡 换 ): 用 于 替换 匹配 的 属性 名 称 的 正则 表达 式 。 
e@ replaceAll( 蔡 换 全 部 ): 如 果 设 置 为 Tme， 则 蔡 换 匹配 的 全 部 属性 名 称 ， 否 则 只 蔡 
换 第 一 个 。 
e@ invertSelection( 反 选 ): 如 果 设 置 为 Tme， 则 使 用 反 向 选择 。 例 如 ， 属 性 索引 “2- 
4” 指 的 是 除 “2-4” 以 外 的 全 部 属性 。 
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数据 挖 所 与 机 器 学 习 
40) RenameNominalValues 
RenameNominalValues 过 滤器 重 命 名 标 称 型 属性 的 值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e@ ”ignoreCase( 忽 略 大 小 写 ): 是 否 在 匹配 标 称 值 时 忽略 大 小 写 。 
@ ”invertSelection( 反 选 ); 如 果 设 置 为 Tme， 则 使 用 反 向 选择 ， 即 重 命名 除 选 中 属性 
以 外 的 所 有 属性 。 
e@ ”selectedAttributes( 选 中 属性 ): 要 操作 的 属性 ， 可 以 使 用 索引 字符 串 或 明确 指定 的 
以 逗号 分 隔 的 属性 名 称 。 
e@ valueReplacements( 蔡 换 值 ): 逗号 分 隔 的 蔡 换 名 称 列表 ， 冒 号 前 为 要 替换 的 名 
称 ， 冒 号 后 为 新 的 名 称 ， 例 如 : red:green. blue:purple, fred:bob。 
41) Reorder 
Reorder 过 滤器 更 改 属性 的 顺序 。 如 果 用 户 要 将 某 属性 移动 到 尾部 ， 使 它 成 为 类 别 属 
性 ， 可 以 使 用 本 过 滤器 。 例 如 ， 使 用 “-R 2-last1” 将 第 一 个 属性 移动 到 尾部 。 
使 用 它 不 仅 可 以 改变 全 部 属性 的 顺序 ， 还 可 以 排除 属性 。 例 如 ， 如 果 有 10 个 属性 ， 
可 以 使 用 “1,3,5,7,9,10” 或 “10,1-5”， 生 成 不 同 的 输出 顺序 。 
可 以 为 下 一 步 处 理 而 复制 属性 。 例 如 ， 使 用 “1.1.1.4.4.4.2.2.2” 时 ， 其 中 第 二 列 和 第 
三 列 中 每 个 属性 的 处 理 方式 不 同 ， 而 第 一 列 仍 保持 原来 的 位 置 。 注 意 ，Weka 正式 文档 这 
样 记 载 ， 但 使 用 时 会 报错 ， 错 误 信 息 为 “Attribute names are not unique!”( 属 性 名 称 不 唯 
= 
可 以 通过 “last-first” 简 单 地 将 属性 按 逆 序 排列 。 
应 用 过 滤器 后 ， 类 别 属性 将 是 最 后 一 个 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ，first 和 
last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
42) ReplaceMissingValues 
ReplaceMissingValues 过 滤器 将 数据 集中 全 部 缺失 的 标 称 型 属性 值 和 数值 型 属性 值 分 
别 替换 为 训练 数据 的 众 数 (modes) 和 均值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 和 暂时 取消 设置 类 别 索引 。 
43) ReplaceMissingWithUserConstant 
ReplaceMissingWithUserConstant 过 滤器 将 数据 集中 标 称 型 、 字 符 串 型 、 数 值 型 和 日 期 
型 属性 的 全 部 缺失 值 蔡 换 为 用 户 指定 的 常量 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e attributes( 属 性 ): 指定 操作 的 属性 范围 。 这 是 一 个 逗号 分 隔 的 属性 索引 ，first 和 
last 均 为 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 也 可 以 指 
定 一 个 用 去 号 分 隔 的 属性 名 称 列表 。 注 意 ， 不 能 在 同一 个 列表 中 混用 索引 和 属性 
名 称 。 
e ”dateFormat( 日 期 格式 ): 用 于 解析 日 期 蔡 换 值 的 格式 化 字符 串 。 
e ”dateReplacementValue( 日 期 蔡 换 值 ): 用 于 替换 日 期 型 属性 缺失 值 的 常量 。 


e@  ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 和 暂时 取消 设置 类 别 索 引 。 
e ”nominalStringReplacementValue( 标 称 字符 串 蔡 换 值 ): 用 于 蔡 换 标 称 型 属性 和 字符 
串 型 属性 缺失 值 的 常量 。 
e ”numericReplacementValue( 数 值 蔡 换 值 );: 用 于 蔡 换 数值 型 属性 缺失 值 的 常量 。 
44) ReplaceWithMissingValue 
ReplaceWithMissingValue 过 滤器 用 于 在 数据 集中 引入 缺失 值 。 指 定 的 掷 硬币 概率 用 于 
决定 是 否 将 实例 的 特定 属性 值 蔡 换 为 缺失 值 ， 也 就 是 说 ， 概 率 为 0.9 意味 着 有 90% 的 值 将 
替换 为 缺失 值 。 该 过 滤器 仅 修改 第 一 批 处 理 的 数据 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e@ ”ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 暂 时 取消 设置 类 别 索引 。 
@ ”invertSelection( 反 选 ); 设置 选择 属性 模式 。 如 果 设 置 为 False， 只 修改 选 定 范围 内 
的 (数值 型 ) 属 性 ;如果 设置 为 Tme， 只 修改 没有 选 定 的 属性 。 
e ”probability( 概 率 ):， 替换 的 概率 。 
e ”seed( 种 子 ): 随机 数 发 生 器 的 种 子 值 。 
45) SortLabels 
SortLabels 是 一 个 对 标 称 型 属性 标签 进行 排序 的 简单 过 滤器 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
e@ ”invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 处 理 选 定 范围 内 的 属 
性 ， 如 果 为 True， 只 处 理 非 选 定 的 属性 。 
e sortType( 排 序 类 型 ): 排序 使 用 的 类 型 。 
46) Standardize 
Standardize 过 滤器 将 给 定数 据 集 的 全 部 数值 型 属性 标准 化 为 具有 和 零 均值 和 单位 方差 ， 
忽略 类 别 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
ignoreClass( 忽 略 类 别 ): 应 用 过 滤器 之 前 ， 和 暂时 取消 设置 类 别 索引 。 
47) StringToNominal 
StringToNominal 过 滤器 将 指定 范围 内 的 字符 串 型 属性 (未 指定 值 的 数目 ) 转 换 为 标 称 值 
(指定 值 的 数目 )。 用 户 要 确保 所 有 出 现 的 字符 串 值 都 会 在 第 一 批 数据 中 出 现 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
attributeRange( 属 性 范围 ): 设置 处 理 哪些 属性 。 这 些 属性 必须 是 字符 串 型 属性 ，first 和 
last 以 及 范围 和 列表 都 是 有 效 值 。 
48) StringToWordVector 
StringToWordVector 过 滤器 将 字符 串 型 属性 转换 为 向 量 类 型 ， 表 示 单 词 出 现 的 频率 。 
具体 方法 是 ， 根 据 字 符 串 中 包含 的 文本 ， 将 字符 串 型 属性 转换 为 一 个 表示 词 出 现 次 数 ( 基 于 
Tokenizen) 信 息 的 属性 集合 。 词 (属性 ) 集 合 由 第 一 次 过 滤 ( 通 常 为 训练 数据 ) 确 定 。 


向 淳 漳 挤 ehM。、 9 浏 导 依 川 本 


1 
了 


« 


489 


@ 


数据 挖掘 三 机 器 学 习 


一 一 WE 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


IDFTransform(IDF 转换 ): 设置 是 否 将 一 个 文档 中 的 词 频 转换 为 方 xlog( 文 档 数量 / 
含有 词 i 的 文档 数量 )， 其 中 , 方 为 词 i 在 文档 (实例 )j 中 出 现 的 频率 。 
TFTransform(TF 转换 ): 设置 是 否 将 原 词 频 方 转换 为 log(1+ 太 )， 其 中 , 方 为 词 i 在 
文档 (实例 )7 中 出 现 的 频率 。 

注意 ，IDFTransform 和 TFTransform 不 能 同时 为 True， 且 这 两 者 如 果 有 一 个 为 
True， 必 须 将 outputWordCounts 设置 为 True。 

attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
attributeNamePrefix( 属 性 名 称 前 级 ): 所 创建 的 属性 名 称 前 缀 ， 默 认为 空 字符 年 
(™™Y) 

doNotOperateOnPerClassBasis( 不 基于 每 个 类 别 操作 ): 如 果 设 置 为 True， 单 词 的 最 
大 数目 和 最 低 限 度 的 频率 不 是 基于 每 个 类 别 ， 而 是 基于 文档 中 的 全 部 类 别 (即使 设 
置 了 类 别 属性 )。 

invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 处 理 选 定 范围 内 的 属 
性 ， 如 果 为 True， 只 处 理 非 选 定 的 属性 。 

lowerCaseTokens( 小 写 符 号 ): 如 果 设 置 为 True， 则 先 将 全 部 单词 符号 转换 成 小 
写 ， 然 后 再 添加 到 词典 中 。 

minTermFreq( 最 小 词 频 ): 设置 词 频 的 最 小 值 ， 这 是 对 每 个 类 别 的 单词 出 现 次 数 的 
要 求 。 默 认 值 为 1 。 

normalizeDocLength( 规 范 化 文档 长 度 ): 设置 是 否 对 文档 (实例 ) 的 词 频 进行 规范 
化 。 选 项 有 No normalization( 不 做 规范 化 ， 默 认 )、Normalize all data( 规 范 化 全 部 
数据 ) 和 Normalize test data only( 仅 规范 化 测试 数据 )。 
outputWordCounts( 输 出 单词 计数 ): 输出 单词 计数 ， 而 不 是 表示 为 单词 不 存在 或 存 
在 的 布尔 值 0 或 1。 

periodicPruning( 定 期 修剪 )， 指定 速率 (输入 数据 集 的 x%)， 以 此 定期 修剪 词典 。 创 
建 一 个 完整 的 词典 后 ， 修 前 wordsToKeep。 这 种 方法 可 能 导致 没有 足够 内 存 。 
stemmer( 词 干 分 析 器 ): 用 于 单词 的 词 干 提取 算法 。 
stopwordsHandler( 停 用 词 处 理 器 ): 所 使 用 的 停 用 词 处 理 器 ，Null 表示 不 使 用 停 用 
词 。 其 余 选 项 为 MultiStopwords( 应 用 多 个 停 用 词 算法 )、Rainbow (基于 Rainbow 
的 停 用 词 ， 参 见 http://www.cs.cmu.edu/~mccallum/bow/rainbow/)、RegExpFromFile 
(使 用 文件 中 的 正则 表达 式 确定 是 否 为 停 用 词 ) 和 WordsFromFile( 使 用 文件 中 列 出 
的 停 用 词 )。 

tokenizer( 分 词 器 ): 用 于 字符 串 的 分 词 算法 。 

wordsToKeep( 保 持 的 单词 ) 尝试 保持 的 单词 数量 (如 果 分 配 了 类 别 属性 ， 则 以 每 
个 类 别 为 基础 )。 


过 


49) SwapValues 
SwapValues 过 滤器 交换 同一 个 标 称 型 属性 的 两 个 值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


attributeIndex( 属 性 索引 ): 设置 处 理 的 属性 。 此 属性 必须 是 标 称 型 ，first 和 last 都 


是 有 效 值 。 
firstValueIndex( 第 一 个 值 的 索引 ): 第 一 个 值 的 索引 ，first 和 last 都 是 有 效 值 。 
secondValueIndex( 第 二 个 值 的 索引 ): 第 二 个 值 的 索引 ，first 和 last 都 是 有 效 值 。 


50) TimeSeriesDelta 

TimeSeriesDelta 是 一 个 实例 过 滤器 。 它 假定 实例 形成 时 间 序 列 数 据 ， 并 将 当前 实例 属 
性 值 蔡 换 为 以 前 (或 未 来 ) 的 实例 的 等 效 属性 值 与 当前 值 之 间 的 差 值 。 对 于 转换 后 的 值 未 知 
的 实例 ， 要 么 删除 实例 ， 要 么 使 用 缺失 值 。 如 果 设 置 了 类 别 属 性 ， 则 忽略 该 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
fillWithMissing( 用 缺失 值 填充 ): 布尔 型 。 在 数据 集 开 头 或 结尾 的 实例 中 ， 如 果 经 
转换 后 的 值 不 可 知 ， 就 使 用 缺失 值 (默认 是 删除 这 些 实例 )。 
instanceRange( 实 例 范围 ); 将 前 向 或 后 向 的 区 间 值 进行 合并 的 实例 数量 。 负 数 表 
示 从 前 面 的 实例 中 取 值 。 

invertSelection( 反 选 ): 是 否 反 向 选择 ， 如 果 为 True， 则 计算 全 部 没有 指定 的 列 。 


51) TimeSeriesTranslate 

TimeSeriesTranslate 过 滤器 假定 实例 构成 时 间 序 列 数据 ， 并 采用 以 前 (或 未 来 ) 的 实例 的 
等 效 属性 值 取 代 当 前 实例 中 的 属性 值 。 对 于 所 需 值 未 知 的 情况 ， 要 么 丢弃 实例 ， 要 么 使 用 
缺失 值 。 如 果 设 置 了 类 别 属 性 ， 则 忽略 该 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 
fillWithMissing( 用 缺失 值 填充 ): 布尔 型 。 在 数据 集 开 头 或 结尾 的 实例 中 ， 如 果 经 
转换 后 的 值 不 可 知 ， 就 使 用 缺失 值 (默认 是 删除 这 些 实例 )。 
instanceRange( 实 例 范围 ): 将 前 向 或 后 向 的 区 间 值 进行 合并 的 实例 数量 ， 负 数 表 
示 从 前 面 的 实例 中 取 值 。 

invertSelection( 反 选 ): 是 否 反 向 选择 ， 如 果 为 True， 则 计算 全 部 没有 指定 的 列 。 


52) Transpose 
Transpose 过 滤器 将 数据 进行 转 置 运算 : 实例 变 为 属性 ， 属 性 变 为 实例 。 如 果 原 始 数据 


的 第 一 


个 属性 是 标 称 型 或 字符 串 型 标识 符 属性 ， 该 标识 符 属性 将 用 于 在 转 置 数据 中 创建 属 


性 名 称 。 所 有 除 标识 符 属 性 之 外 的 属性 必须 是 数值 型 。 原 始 数据 的 属性 名 称 将 用 来 在 转 置 
数据 中 创建 一 个 类 型 为 string 的 标识 符 属 性 。 

该 过 滤器 只 能 处 理 一 批 数据 ， 例 如 ， 它 不 能 用 于 FilteredClassifier 中 。 

该 过 滤器 只 能 用 于 没有 设置 类 别 属 性 的 数据 集中 。 


期 值 将 转化 为 简单 数值 。 


该 过 滤器 只 需要 设置 debug 和 doNotCheckCapabilities 参数 。 


无 


监督 实例 过 滤器 


1) NonSparseToSparse 
NonSparseToSparse 是 一 个 实例 过 滤器 ， 将 全 部 输入 实例 转换 为 稀疏 格式 。 
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通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

einsertDummyNominalFirstValue( 标 称 第 一 个 值 前 插入 虚拟 值 ): 对 于 所 有 标 称 型 属 
性 ， 在 第 一 个 值 声明 之 前 先 插 入 一 个 虚拟 值 。 将 已 编码 为 Apriori 的 市 场 购物 篮 
数据 转换 为 稀疏 格式 时 非常 有 用 。 通 常 与 将 缺失 值 处 理 为 零 的 方式 一 并 使 用 。 

@ treatMissingValuesAsZero( 缺 失 值 处 理 为 零 ): 将 缺失 值 作为 零 进 行 处 理 。 

2) Randomize 

Randomize 过 滤器 随机 打 乱 通过 该 过 滤器 的 实例 顺序 。 每 当 一 组 新 实例 进入 该 过 滤器 


， 随 机 数 发 生 器 使 用 其 种 子 值 进 行 复位 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

randomSeed( 随 机 种 子 ): 随机 数 发 生 器 的 种 子 。 

3)RemoveDuplicates 

RemoveDuplicates 过 滤器 删除 接收 到 的 第 一 批 数 据 中 所 有 重复 的 实例 。 

该 过 滤器 只 需要 设置 debug 和 doNotCheckCapabilities 参数 。 

4) RemoveFolds 

RemoveFolds 过 滤器 将 数据 集 作 为 输入 ， 并 为 交叉 验证 输出 指定 第 几 折 。 如 果 想 使 用 


分 层 折 数 的 交叉 验证 ， 请 使 用 有 监督 的 版 本 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e fold( 折 ): 选择 的 折 。 

e@ invertSelection( 反 选 ): 是 否 反 向 选择 。 

。 ”numFolds( 折 数 ):， 数据 集 分 割 成 的 折 数 。 

eseed( 种 子 ): 对 数据 集 重新 排序 的 随机 数 种 子 。 如 果 种 子 为 负数 ， 将 不 重新 排序 。 
5) RemoveFrequentValues 


RemoveFrequentValues 过 滤器 决定 保留 某 个 标 称 型 属性 中 的 那些 出 现 频 率 高 (或 低 ) 的 


值 ， 并 相应 地 过 滤 其 实例 。 在 一 些 值 具有 相同 频率 的 情况 下 ， 将 按照 原来 的 实例 对 象 出 现 
的 顺序 进行 第 选 。 例 如 ， 如 果 有 值 “1,2,3,4”， 其 频率 为 “10,5,5,3”， 选 择 保 留 两 个 最 常 
见 的 值 ， 结 果 将 是 值 “1,2”， 这 是 因为 即便 “2” 和 “3” 具 有 相同 的 频率 ， 但 值 “2” 出 
现在 值 “3” 之 前 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e “attributeIndex( 属 性 索引 ): 用 于 选择 的 属性 索引 ， 默 认为 最 后 一 个 。 

e ”invertSelection( 反 选 ); 是 否 反 向 选择 。 

e ”modifyHeader( 修 改 头 ): 选择 标 称 型 属性 时 ， 删 除 引用 到 排除 值 的 头 。 

e ”numValues( 值 的 数目 ): 保留 的 值 的 数目 。 

e@ useLeastValues( 使 用 最 少 值 ): 如 果 为 True， 则 保留 实例 最 少 的 值 ， 而 不 是 最 多 的 。 
默认 为 False。 

6) RemoveMisclassified 

RemoveMisclassified 过 滤器 用 于 删除 错误 分 类 的 实例 ， 主 要 用 于 去 除 离 群 值 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

eclassIndex( 类 别 索引 ): 判断 错误 分 类 所 基于 的 类 别 索引 。 如 果 其 值 小 于 0， 则 使 
用 当前 的 类 别 设置 ， 默 认为 最 后 一 个 属性 。 

e@ classifier( 分 类 器 ): 产生 错误 分 类 的 分 类 器 。 


einvert( 反 向 ): 是 否 反 向 选择 。 如 果 为 True， 则 丢弃 当前 正确 分 类 的 实例 。 

e ”maxIterations( 最 大 迭代 ): 迭代 执行 的 最 大 数目 。 小 于 1 时 ， 意 味 着 过 滤器 一 直 运 
行 ， 直 到 完全 净化 。 

e@ numFolds( 折 数 ): 使 用 的 交叉 验证 的 折 数 。 如 果 小 于 2， 则 不 进行 交叉 验证 。 

ee threshold( 阔 值 ): 预测 数值 类 别 ( 即 回归 ) 时 的 最 大 允许 误差 阔 值 ， 其 值 应 该 大 于 等 
于 0。 

7) RemovePercentage 

RemovePercentage 过 滤器 删除 数据 集中 给 定 百分比 的 实例 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ invertSelection( 反 选 ): 是 否 反 向 选择 。 

e@ ”percentage( 百 分 比 ): 选择 数据 的 百分比 。 


8) RemoveRange 
RemoveRange 过 滤器 删除 数据 集 里 给 定 范围 的 实例 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


e ”instancesIndices( 实 例 索引 ): 选择 的 实例 范围 ，first 和 last 都 是 有 效 的 索引 。 

@ ”invertSelection( 反 选 ); 是 否 反 向 选择 。 

9) RemoveWithValues 

RemoveWithValues 过 滤器 根据 属性 值 过 滤 实 例 ， 筛 选 出 具有 特定 属性 值 的 实例 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndex( 属 性 索引 ): 挑选 用 于 选择 的 属性 ， 默 认为 最 后 一 个 。 

e ”dontFilterAfterFirstBatch( 第 一 批 后 不 过 滤 ): 是 否 对 输入 的 第 一 批 (训练 数据 ) 之 
后 的 实例 应 用 过 滤 处 理 。 默 认为 False， 以 便 后 续 批 次 的 实例 有 可 能 让 过 滤器 
“消费 ”。 

e@ invertSelection( 反 选 ): 是 否 反 向 选择 。 

e matchMissingValues( 匹 配 缺失 值 ): 将 缺失 值 作为 匹配 项 ， 此 设置 独立 于 
invertSelection 选项 。 

e ”modifyHeader( 修 改 头 ): 选择 标 称 型 属性 时 ， 删 除 引 用 到 排除 值 的 头 。 

e ”nominalIndices( 标 称 索 引 ): 用 于 选择 标 称 型 属性 的 标签 索引 范围 ，first 和 last 都 
是 有 效 的 索引 。 

e splitPoint( 分 割 点 ): 用 于 选择 数值 型 属性 的 数值 ， 将 选中 其 值 小 于 给 定 值 的 实例 。 

10) Resample 

Resample 过 滤器 通过 有 放 回 或 无 放 回 的 抽样 产生 数据 集 的 随机 子 样本 。 原 始 数据 集 必 


须 完全 装载 在 内 存 中 ， 可 以 指定 所 生成 数据 集 实例 的 数量 。 在 批 处 理 模 式 下 使 用 时 ， 后 续 
批 次 不 再 重复 采样 。 


通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

e@ invertSelection( 反 选 ): 是 否 反 向 选择 ， 仅 用 于 无 放 回 的 实例 抽样 。 
ee noReplacement( 无 放 回 ): 禁用 实例 放 回 抽样 。 

e IandomSeed( 随 机 种 子 ): 用 于 随机 抽样 的 种 子 。 

e@ ”sampleSizePercent( 样 本 大 小 百分比 ): 子 样本 的 大 小 占 原始 数据 集 的 百分比 。 
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11) ReservoirSample 

ReservoirSample 过 滤器 使 用 Vitter 的 水 库 抽样 算法 “R”， 产 生 数 据 集 的 一 个 随机 子 
样本 。 子 样本 (reservoir) 必 须 装载 到 主 存储 器 ， 但 原始 数据 集 则 不 必 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

@ ”randomSeed( 随 机 种 子 ): 用 于 随机 抽样 的 种 子 。 

ee ”sampleSize( 样 本 大 小 ): 子 样本 (水 库 ) 的 大 小 ， 即 实例 的 数量 。 

12) SparseToNonSparse 

SparseToNonSparse 实例 过 滤器 将 输入 的 所 有 稀 玻 实例 转换 为 非 稀疏 格式 。 

该 过 滤器 只 需要 设置 debug 和 doNotCheckCapabilities 参数 。 

13) SubsetByExpression 

SubsetByExpression 过 滤器 根据 应 用 于 属性 值 的、 由 数学 和 逻辑 运算 符 组 成 的 逻辑 表 
达 式 的 评价 结果 ， 决 定 是 否 保留 实例 。 

语法 如 下 : 


boolexpr list ::= boolexpr list boolexpr part | boolexpr part; 
boolexpr part ::= boolexpr:e {: parser.setResult(e); :}; 
boolexpr ::= BOOLEAN 

true 

false 

expr < expr 

expr <= expr 

expr > expr 

expr >= expr 

expr = expr 

( boolexpr ) 

not boolexpr 

boolexpr and boolexpr 

boolexpr or boolexpr 

ATTRIBUTE is STRING 


expr = NUMBER 
| ATTRIBUTE 
| ( expr ) 
| opexpr 

| funcexpr 


opexpr  ::= expr + expr 
| expr - expr 
| expr * expr 
| expr / expr 


funcexpr ::= abs ( expr ) 
1 sqrt ( expr ) 
| log ( expr ) 
| exp ( expr ) 
| sin ( expr ) 


cos ( expr ) 

tan ( expr ) 

Tint ( expr ) 

floor ( expr ) 

pow ( expr for base , expr for exponent ) 
ceil ( expr ) 


中 六 疼 输 ee 8g 祁 守 全 下 


NUMBER: 任何 整数 或 浮 点 数 (但 不 用 科学 记 数 法 )。 

STRING: 任何 用 单 引号 包括 的 字符 串 。 但 字符 串 也 有 可 能 不 用 单 引号 。 
ATTRIBUTE: 以 下 占 位 符 均 会 确认 为 是 属性 值 。 

。s CLASS: 设置 类 别 属性 后 的 类 别 值 。 

4e ATTxyz: xyz 表示 属性 的 索引 值 ， 范 围 从 1 到 数据 集 的 属性 总 数 。 
示例 : 

e 从 UCI 数 据 集 zoo 中 ， 只 提取 哺乳 动物 (mammal) 和 鸟 类 (bird): 


(CLASS is 'mammal') or (CLASS is 'bird') 


。 从 UCI 数据 集 zoo 中 ， 只 提取 至 少 有 2 条 腿 的 动物 : 


(ATT14 >= 2) 


e ”从 UCI 数据 集 1labor 中 ， 只 提取 属性 wage-increase-second-year 没有 缺失 的 实例 : 


not ismissing (ATT3) 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ ”expression( 表 达 式 ): 用 于 过 滤 数 据 集 的 表达 式 。 

ee filterAfterFirstBatch( 第 一 批 后 过 滤 ): 是 否 对 输入 的 第 一 批 训练 数据 之 后 的 实例 应 
用 过 滤 处 理 。 默 认为 False， 这 样 ， 当 在 FilteredClassifier 中 使 用 时 ， 测 试 实例 不 
能 只 让 过 滤器 “消费 ”， 而 是 总 要 做 出 预测 。 

有 监督 属性 过 滤器 


1) AddClassification 
AddClassification 过 滤器 使 用 分 类 器 为 数据 集 添 加 类 别 、 类 别 分 布 和 错误 标志 。 分 类 


ee ei 
总 


器 可 以 通过 对 数据 本 身 进 行 训练 而 得 到 ， 也 可 以 通过 序列 化 模型 得 到 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ classifier( 分 类 器 ): 用 于 分 类 的 分 类 器 。 

e ”outputClassification( 输 出 类 别 ):， 是 否 添加 一 个 实际 类 别 的 属性 。 

e ”outputDistribution( 输 出 分 布 ): 是 否 要 为 全 部 类 别 (对 于 数值 类 别 ， 这 和 采用 
outputClassification 选项 的 属性 输出 相同 ) 的 分 布 添加 属性 。 

e ”outputErrorFlag( 输 出 错误 标志 ): 是 否 添加 一 个 属性 ， 指 示 分 类 器 是 否 输出 错误 的 
类 别 。 对 于 数值 类 别 ， 这 里 为 数值 的 差 值 。 

e ”removeOldClass( 删 除 旧 的 类 别 )， 是 否 删除 旧 的 类 别 属性 。 

e@ ”serializedClassifierFile( 序 列 化 分 类 器 文件 )， 一 个 序列 化 模型 文件 ， 包 含 已 经 训练 
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好 的 分 类 器 。 
2) AttributeSelection 
AttributeSelection 是 一 个 有 监督 的 属性 过 滤器 ， 可 用 于 选择 属性 。 该 过 滤器 非常 灵 
允许 将 各 种 搜索 和 评估 方法 联合 使 用 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e@ ”evaluator( 评 估 器 ): 确定 如 何 对 属性 (或 属性 子 集 ) 进 行 评估 。 
e ”search( 搜 索 ): 确定 搜索 方法 。 
3) ClassConditionalProbabilities 
ClassConditionalProbabilities 过 滤器 将 标 称 型 属性 值 或 数值 型 属性 值 转换 为 类 别 条 件 概 
如 果 有 大 个 类 别 ， 则 将 创建 大 个 新 属性 ， 其 值 由 pr(att val | class 月 给 出 。 
该 过 滤器 可 用 于 将 含 不 同 值 的 标 称 型 属性 转换 为 更 易于 管理 的 属性 ， 方 便 不 能 处 理 标 


称 型 属性 的 学 习 方 案 进 行 处 理 ， 而 不 用 创建 二 元 指示 属性 。 对 于 标 称 型 属性 ， 用 户 可 以 指 
定 一 个 阀 值 ， 大 于 该 阔 值 时 属性 才 使 用 本 方法 进行 转换 。 


通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

e ”Exclude nominal attributes( 排 除 标 称 型 属性 )， 对 标 称 型 属性 不 使 用 转换 。 

@ ”Exclude numeric attributes( 排 除数 值 型 属性 ): 对 数值 型 属性 不 使 用 转换 。 

e ”Nominal conversion threshold( 标 称 转换 闵 值 )， 至 少 有 这 么 多 取 值 才 转 换 标 称 型 属 
性 。-1 意味 着 总 是 转换 。 

4) ClassOrder 

ClassOrder 过 滤器 更 改 类 别 顺序 ， 使 类 别 值 不 再 按 标 头 中 指定 的 顺序 排列 。 类 别 值 将 


按 用 户 指定 的 顺序 ， 可 以 按 类 别 频 率 升 序 / 降 序 排 列 ， 也 可 以 按 随机 顺序 排列 。 注 意 ， 这 个 
过 滤器 目前 不 改变 标 头 ， 只 改变 实例 的 类 别 值 ， 因 此 联合 使 用 它 与 FilteredClassifier 并 没 
有 多 大 意义 。 值 也 可 以 调用 originalValue(double value) 函 数 进行 转换 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e@ ”classOrder( 类 别 顺序 )， 指定 过 滤 后 的 类 别 顺序 。 
e ”seed( 种 子 ): 指定 类 别 顺序 的 随机 种 子 。 


5) Discretize 


Discretize 过 滤器 将 数据 集中 一 定 范围 内 的 数值 型 属性 离散 化 为 标 称 型 属性 。 默 认 的 离 


散 化 方法 是 Fayyad & Irani 的 MDL 判 据 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 
first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

e binRangePrecision( 箱 范围 精度 ): 当 生 成 箱 标签 时 ， 分 割 点 所 使 用 小 数 点 后 的 位 数 。 

e@ ”invertSelection( 反 选 ): 设置 属性 选择 模式 。 如 果 为 False， 只 有 选 定 范 围 内 的 数值 

型 属性 被 离散 化 ;如 果 为 True， 只 有 非 选 定 的 属性 被 离散 化 。 

makeBinary( 二 元 化 ): 将 结果 属性 二 元 化 。 

useBetterEncoding( 使 用 更 好 编码 ): 使 用 更 有 效 的 分 割 点 编码 。 

useBinNumbers( 使 用 箱 号 码 ): 使 用 箱 号 码 (例如 BXofY)， 而 不 是 离散 化 属性 范围 。 

useKononenko( 使 用 Kononenko): 使 用 Kononenko 的 MDL 判 据 。 如 果 设 置 为 


False， 则 使 用 Fayyad & Irani 判 据 。 

6) MergeNominalValues 

MergeNominalValues 过 滤器 使 用 CHAID 方法 ， 合 并 指定 范围 的 标 称 型 属性 (但 不 含 类 
别 属 性 ) 中 的 所 有 属性 值 ， 它 不 使 用 re-split 子 集合 并 。 该 过 滤器 实现 了 Gordon V. Kass 
(1980) 论 文 所 描述 的 步骤 1 和 2。 

一 旦 完成 属性 值 的 合并 ， 将 使 用 Bonferroni 调整 的 卡 方 检验 方法 来 检查 生成 的 属性 是 
否 为 有 效 的 预测 器 ， 数 学 基础 为 在 文献 Kass (1980)? 的 公式 3.2 中 的 Bonferroni 乘 数 。 如 果 
属性 没有 通过 该 检验 ， 将 合并 所 有 剩余 的 值 (如 果 有 的 话 )。 然 而 ， 无 用 的 预测 器 可 能 无 法 
做 到 合并 本 应 合并 的 属性 (例如 标识 符 属 性 ) 值 。 

当 计 算 卡 方 统计 量 时 ， 代 码 使 用 Yates 校正 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e attributeIndices( 属 性 索引 ): 指定 操作 的 属性 范围 。 属 性 索引 列表 用 逗号 分 隔 ， 

first 和 last 都 是 有 效 值 ， 用 “-” 指 定 所 包括 的 范围 。 例 如 : first-3,5,6-10,last。 

e ”invertSelection( 反 选 ): 设置 是 对 所 选择 的 属性 进行 处 理 ， 还 是 对 其 他 未 选择 的 属 

性 ( 即 反 向 选择 ) 进 行 处 理 。 

e@ ”significanceLevel( 显 著 性 水 平 ); 卡 方 检验 的 显著 性 水 平 ， 用 于 决定 何 时 停止 合并 。 

e@ ”useShortIdentifiers( 使 用 短 标识 符 ): 是 否 为 合并 后 的 值 使 用 短 标识 符 。 

7) NominalToBinary 

NominalToBinary 过 滤器 将 全 部 标 称 型 属性 转换 成 二 元 的 数值 型 属性 。 如 果 类 别 属性 
是 标 称 型 ， 使 用 每 个 值 一 个 属性 (one-attribute-per-value) 的 方法 ， 将 大 个 值 的 属性 转换 成 天 
个 二 元 属性 。 如 果 没 有 给 定 -A 参数 ， 二 元 属性 将 保持 不 变 。 如 果 类 别 属性 是 数值 型 ， 将 
按照 Breiman 等 人 在 Classification and Regression Trees( 分 类 与 回归 树 ) 论 文中 描述 的 方式 ， 
创建 寻 1 个 新 的 二 元 属性 ， 即 考虑 类 别 平均 值 与 每 个 属性 值 的 关联 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e binaryAttributesNominal( 标 称 型 二 元 属性 ): 结果 二 元 属性 是 否 为 标 称 型 。 

e@ transformAllValues( 转 换 全 部 值 ): 是 否 所 有 的 标 称 值 都 转换 为 新 属性 ， 不 只 是 超 

过 2 的 标 称 值 。 

8) PartitionMembership 

PartitionMembership 过 滤器 使 用 PartitionGenerator 生成 分 隔 隶 属 度 值 ， 过 滤 后 的 实例 
由 这 些 隶 属 度 值 加 上 类 别 属 性 (如 果 在 输入 数据 中 设置 ) 构 成 ， 并 呈现 为 稀 朴 的 实例 集 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

partitionGenerator( 分 隔 生 成 器 ): 分 隔 生成 器 ， 为 实例 集 生 成 隶属 度 值 。 支 持 的 生成 器 
有 J48、RandomForest、RandomTree 和 REPTree。 


有 监督 实例 过 滤器 


1) ClassBalancer 


ClassBalancer 过 滤器 调整 数据 集中 的 实例 ， 使 得 每 个 类 别 都 有 相同 的 总 权重 。 所 有 实 
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例 的 权重 总 和 将 维持 不 变 。 它 只 改变 通过 该 过 滤器 的 第 一 批 数据 的 权重 ， 因 此 可 以 用 于 
FilteredClassifier。 

该 过 滤器 只 需要 设置 debug 和 doNotCheckCapabilities 参数 。 

2) Resample 

Resample 过 滤器 通过 有 放 回 或 无 放 回 的 抽样 产生 数据 集 的 一 个 随机 子 样本 。 

必须 将 原始 数据 集 完全 加 载 到 内 存 中 。 可 以 指定 生成 数据 集 的 实例 数量 。 该 数据 集 必须 
有 标 称 型 的 类 别 属性 。 如 果 没 有 ， 请 使 用 无 监督 版 本 。 该 过 滤器 可 在 子 样本 中 保持 类 别 分 
布 ， 或 使 类 别 分 布 偏向 均匀 分 布 。 在 用 于 批 模式 ( 即 FilteredClassifier) 时 ， 后 续 批 次 不 重 采样 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ “biasToUniformClass( 偏 向 均匀 类 别 分 布 ): 是 否 使 用 偏向 均匀 类 别 分 布 。 其 值 为 0， 
保持 原 类 别 分 布 ， 其 值 为 1， 确 保 输出 数据 的 类 别 分 布 是 均匀 的 。 
invertSelection( 反 选 ): 是 否 反 向 选择 ， 仅 用 于 无 放 回 抽样 实例 。 
noReplacement( 无 放 回 ): 禁用 有 放 回 抽样 。 
randomSeed( 随 机 种 子 ): 子 抽样 的 随机 数 种 子 。 
sampleSizePercent( 样 本 大 小 百分比 ): 子 样本 大 小 占 原始 集 的 百分比 。 默 认 值 
为 100.0。 

3) SpreadSubsample 

SpreadSubsample 过 滤器 产生 数据 集 的 随机 子 样本 。 必 须 将 原始 数据 集 完全 加 载 到 内 存 
中 。 此 过 滤器 允许 指定 最 稀有 与 最 常见 类 别 之 间 的 最 大 spread( 差 幅 )。 例 如 ， 可 以 指定 类 
别 频率 的 最 大 差异 为 2 : 1。 在 用 于 批 模式 时 ， 后 续 批 次 不 能 重 抽 样 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e adjustWeights( 调 整 权重 ): 是 否 调整 实例 权重 ， 以 保持 每 个 类 别 的 总 权重 。 

e distributionSpread( 分 布 差 幅 ): 最 大 类 别 分 布 差 幅 (0= 不 设 最 大 差 幅 ，1= 均 匀 分 

布 ，10= 允 许 类 别 之 间 ( 差 幅 的 ) 最 大 比例 为 10 : 1)。 

e maxCount( 最 大 计数 ):， 任意 类 别 值 的 最 大 计数 (0= 无 限制 )。 

e ”randomSeed( 随 机 种 子 ): 子 抽样 的 随机 数 种 子 。 

4) StratifiedRemoveFolds 

StratifiedRemoveFolds 过 滤器 将 数据 集 作为 输入 ， 输 出 为 交叉 验证 使 用 的 指定 折 数 。 
如 果 不 希 望 折 分 层 ， 请 使 用 无 监督 的 版 本 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e。 ”fold( 折 ): 选择 的 折 。 

@ ”invertSelection( 反 选 ); 是 否 反 向 选择 。 

e ”numFolds( 折 数 ): 将 数据 集 分 割 为 折 的 数目 。 

e “seed( 种 子 ): 打 乱 数据 集 顺序 的 随机 数 种 子 。 如 果 为 负数 ， 将 不 打 乱 顺 序 。 


分 类 算法 介绍 


Weka 的 分 类 算法 按照 其 功能 分 为 如 下 七 种 : bayes( 贝 叶 斯 )、functions( 功 能 )、lazy( 消 
极 )、meta( 元 )、misc( 杂 项 )、rules( 规 则 ) 和 trees( 树 )。 


bayes 


1) BayesNet 

使 用 不 同 的 搜索 算法 和 质量 度量 的 BayesNet( 贝 叶 斯 网 络 ) 学 习 算 法 。 

这 是 贝 叶 斯 网 络 分 类 器 的 基 类 。 提 供 网 络 结构 、 条 件 概率 分 布 等 数据 结构 和 贝 叶 斯 网 
络 学 习 算法 的 常用 服务 ， 如 K2 和 B 算法 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


BIFFile(BIF 文件 ): 设置 BIF XML 格式 的 文件 名 称 。 原 来 学 习 而 得 的 贝 叶 斯 网 络 
可 以 采用 BIF 文件 存放 ， 从 数据 学 习 而 得 的 新 贝 叶 斯 网 络 可 以 与 BIF 文件 表示 的 
网 络 进行 比较 。 

batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
estimator( 估 算 器 ): 选择 估算 器 算法 ， 以 寻找 贝 叶 斯 网 络 的 条 件 概率 表 。 目 前 支 
持 的 估算 器 有 BayesNetEstimator、BMAEstimator、MultiNomialBMAEstimator、 
SimpleEstimator。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

searchAlgorithm( 搜 索 算 法 ): 选择 用 于 搜索 网 络 结构 的 方法 。 目 前 支持 的 搜索 算 
法 有 GeneticSearch、HillClimber、K2、LAGDHillClimber、RepeatedHillClimber、 
SimulatedAnnealing、TabuSearch、TAN。 

useADTree( 使 用 ADTree): 使 用 ADTree， 通 常会 减少 学 习 时 间 。ADTree 是 增加 
计数 速度 的 数据 结构 ， 注 意 不 要 与 同名 分 类 器 混淆 。 然 而 ， 由 于 ADTree 占用 大 
量 内 存 ， 可 能 会 出 现 内 存 紧张 的 状况 。 此 选项 为 False 时 ， 使 用 较 少 内 存 ， 但 结 
构 学 习 算 法 速度 较 慢 。 默 认为 False。 


2) NaiveBayes 

NaiveBayes( 朴 素 贝 叶 斯 分 类 器 ) 使 用 估算 器 类 。 基 于 对 训练 数据 的 分 析 ， 选 择 数字 估 
算 器 的 精度 值 。 出 于 这 个 原因 ， 分 类 器 不 是 UpdateableClassifier( 可 更 新 的 分 类 器 ， 这 类 分 
类 器 的 特点 是 可 用 零 个 训练 实例 来 初始 化 )。 如 果 需 要 使 用 可 更 新 分 类 器 的 功能 ， 可 使 用 
NaiveBayesUpdateable 分 类 器 。 当 采用 零 个 训练 实例 调用 buildClassifier 时 ， 
NaiveBayesUpdateable 分 类 器 对 数值 型 属性 的 默认 精度 为 0.1。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
displayModelInOldFormat( 旧 格式 的 显示 模型 ): 使 用 旧 格 式 的 模型 输出 。 当 类 
别 取 值 较 多 时 ， 使 用 旧 格 式 更 好 ; 当 类 别 取 值 较 少 并 且 属性 很 多 时 ， 使 用 新 格式 
更 好 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

useKernelEstimator( 使 用 核 估算 器 ): 对 数值 型 属性 不 使 用 正 态 分 布 ， 而 使 用 核 估 
算 器 。 默 认为 False。 
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e@ ”useSupervisedDiscretization( 使 用 有 监督 离散 化 ): 使 用 有 监督 离散 化 将 数值 型 属性 
转换 为 标 称 型 属性 。 默 认为 False。 
3) NaiveBayesMultinomial 
构建 并 使 用 多 项 式 朴素 贝 叶 斯 分 类 器 类 。 
此 分 类 器 的 核心 公式 如 下 : 
P[CilD]= (PI[DICi] x P[Ci) /PID] 。〈 贝 叶 斯 规则 ) 
其 中 ，Ci 为 类 别 i; D 为 文档 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
4) NaiveBayesMultinomialText 
处 理 文本 数据 的 多 项 式 朴 素 贝 叶 斯 分 类 器 。 只 能 直接 操作 字符 串 属性 ， 也 接受 其 他 类 
型 的 输入 属性 ， 但 在 训练 和 分 类 中 被 忽略 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e LNorm(LNorm): 用 于 文档 长 度 规范 化 的 LNorm。 默 认 值 为 2.0。 
e@ ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e@ ”lowercaseTokens( 标 记 小 写 ): 是 否 将 所 有 标记 转换 为 小 写 。 
。 ”minWordFrequency( 最 低 单 词 频率 ): 忽略 训练 数据 中 出 现 次 数 低 于 该 值 的 全 部 单 
词 。 如 果 将 periodicPruning 选项 设置 为 正 整 数 ， 则 根据 该 值 对 词典 进行 修剪。 
e ”norm( 范 数 )， 规范 化 以 后 实例 的 范 数 。 默 认 值 为 1.0。 
e ”normalizeDocLength( 规 范 化 文档 长 度 ): 如 果 为 True， 则 根据 范 数 和 LNorm 的 设 
置 ， 规 范 化 文档 长 度 。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
e periodicPruning( 定 期 修剪 ): 修剪 词典 里 低频 词 条 的 频率 (实例 的 数量 )。0 表示 不 
进行 修剪 ， 正 整数 n 表示 每 经 过 1n 个 实例 后 进行 修剪 。 
stemmer( 词 干 分 析 器 ): 用 于 单词 的 词 干 提取 算法 。 
stopwordsHandler( 停 用 词 处 理 器 ): 使 用 的 停 用 词 处 理 器 ，Null 表示 不 使 用 停 用 词 。 
tokenizer( 分 词 器 ): 用 于 字符 串 的 分 词 算 法 。 
useWordFrequencies( 使 用 词 频 ): 使 用 词 频 ， 而 不 是 表示 词 的 二 元 包 。 默 认为 
False。 
5) NaiveBayesMultinomialUpdateable 
构建 并 使 用 多 项 式 朴素 贝 叶 斯 分 类 器 类 。 
此 分 类 器 的 核心 公式 如 下 : 
P[CilD]= (PIDICi] x P[Ci)/P[D] 。〈 贝 叶 斯 规则 ) 
其 中 ，Ci 为 分 类 i; DD 为 文档 。 


它 是 多 项 式 朴 素 贝 叶 斯 分 类 器 算法 的 增强 版 本 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

6) NaiveBayesUpdateable 

使 用 估算 器 类 的 朴素 贝 叶 斯 分 类 器 类 ， 是 NaiveBayes 的 可 更 新 版 本 。 

当 采 用 零 个 训练 实例 调用 buildClassifier 时 ， 该 分 类 器 对 数值 型 属性 的 默认 精度 为 0.1。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e “batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e@ ”displayModelInOldFormat( 旧 格式 的 显示 模型 ): 使 用 旧 格 式 的 模型 输出 。 当 类 别 
取 值 较 多 时 ， 使 用 旧 格 式 更 好 ， 当 类 别 取 值 较 少 并 且 属 性 很 多 时 ， 使 用 新 格式 
更 好 。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e@ ”useKernelEstimator( 使 用 核 估算 器 ): 对 数值 型 属性 不 使 用 正 态 分 布 ， 而 使 用 核 估 
算 器 。 默 认为 False。 

e@ ”useSupervisedDiscretization( 使 用 有 监督 离散 化 ): 使 用 有 监督 离散 化 将 数值 型 属性 
转换 为 标 称 型 属性 。 默 认为 False。 


functions 


functions 类 别 较为 特殊 ， 它 包括 各 类 分 类 器 ， 其 数学 公式 可 以 用 自然 而 合理 的 方式 写 
出 。 其 他 方法 ， 如 决策 树 和 决策 规则 ， 则 不 能 自然 而 合理 地 写 出 数学 公式 ， 但 也 有 例外 ， 
如 NaiveBayes 分 类 器 也 有 一 个 简单 的 数学 公式 。 

1) GaussianProcesses 

实现 不 用 超 参 数 整定 的 高 斯 回归 过 程 。 为 了 更 容易 选择 一 个 适当 的 噪声 级 别 ， 如 果 在 
filterType 选项 中 选择 规范 化 或 标准 化 训练 数据 ， 本 实现 会 对 目标 属性 以 及 其 他 属性 应 用 规 
范 化 或 标准 化 。 缺 失 值 蔡 代 为 全 局 均值 / 众 数 (mean/mode)。 标 称 型 属性 都 转换 成 二 元 属 
性 。 注 意 ， 如 果 使 用 CachedKemel 实现 核 ， 则 关闭 核 缓存 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ “batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 

一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e filterType( 过 滤器 类 型 ): 确定 数据 是 否 转 换 以 及 如 何 转换 。 有 三 个 选项 : 
Normalize training data( 规 范 化 训练 数据 )、Standardize training data( 标 准 化 训练 数 
据 ) 和 No normalization/standardization( 不 规范 化 /标准 化 ， 即 不 改变 )。 

e ”kermnel( 核 ): 使 用 的 核 。 

e@ ”noise( 噪 声 ): 高 斯 噪声 级 别 。 在 目标 完成 规范 化 、 标 准 化 或 不 改变 之 后 ， 添 加 噪 
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数据 挖 所 与 机 器 学 习 
声 到 协 方差 矩阵 的 对 角 。 默 认 值 为 1.0。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
2) LinearRegression 
使 用 线性 回归 预测 的 类 。 模 型 选择 使 用 Akaike 准则 ， 能 够 处 理 加 权 实 例 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”attributeSelectionMethod( 属 性 选择 方法 ): 设置 选择 属性 所 使 用 的 方法 ， 用 于 线性 
回归 。 可 用 的 方法 有 如 下 三 种 : 不 选择 属性 (No Attribute selection)、 使 用 M5 方 
法 选择 属性 (M5 method， 该 方法 依次 删除 标准 化 系数 最 小 的 属性 ， 直 到 所 观测 的 
由 Akaike 信息 量 准 则 所 给 出 的 误差 估计 不 会 得 到 改善 为 止 )， 以 及 使 用 Akaike 信 
息 量 度量 的 贪 禁 选择 法 (Greedy method)。 
e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e ”eliminateColinearAttributes( 消 除 共 线性 属性 ): 消除 共 线 性 属性 。 默 认为 True。 
e ”minimal( 最 低 限 )， 如 果 为 True， 则 丢弃 数据 集 头 、 均 值 和 标准 差 ， 以 节省 内 存 ， 
该 模型 也 不 能 打印 出 来 。 默 认为 False。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 4。 
e ”outputAdditionalStats( 输 出 附加 统计 数据 )， 输出 额外 的 统计 数据 (如 系数 标准 偏差 
和 + 统计 量 )。 
。 “ridge( 岭 )， 岭 参数 的 值 。 默 认 值 为 1.0E-8。 
3) Logistic 
构建 和 使 用 带 岭 估算 器 的 多 项 式 logistic 回归 模型 类 。 
然而 ， 与 leCessie 和 van Houwelingen(1992) 的 论文 相 比 ， 做 了 一 些 修 改 。 
如 果 有 m 个 属性 、n 个 实例 及 大 个 类 别 ， 要 计算 的 参数 矩阵 下 将 是 一 个 mx(k-1) 和 矩阵 。 
除 最 后 一 个 类 别 之 外 ， 第 7 个 类 别 的 概率 为 
PCD =expGCB)Gsum[ 产 1..(eD)]expCEGBD)+I1) 
最 后 一 个 类 别 的 概率 为 
1-Gcum[ 产 1.0e-D]PGD) 
= 1/((sum[A=1..(k-1)]Jexp(X¥iB)))+1) 
因此 ，( 负 ) 多 项 式 对 数 似 然 为 
L=-sum[i=1..n]{ 
sum[ 产 1..( 人 1])]( 巧 xn 人 (CD)) 
+(1- (suml[Ar1..(£-1)]7Y)) 
* ln(1 -sum[ 产 1.(eD]PCD) 
}+rdgex(B^2) 
为 了 找到 最 小 化 工 的 矩阵 3， 使 用 拟 牛顿 法 (Quasi-Newton Method) 搜 索 mx(1-1) 变 量 的 
优化 值 。 注意， 在 使 用 优化 过 程 以 前 ， 应 先 将 矩阵 B“ 挤 ”为 mx( 二 1) 向 量 。 对 于 优化 过 
程 的 细节 ， 请 查看 weka.core.Optimization 类 。 
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虽然 原 logistic 回归 不 处 理 实例 权重 ， 这 里 对 原 算法 做 了 一 点 点 修改 ， 使 算法 能 处 理 
实例 权重 。 

更 多 信息 请 参见 : le Cessie S, van Houwelingen J C. Ridge Estimators in Logistic 
Regression. Applied Statistics, 1992. 41(1):191-201. 

注意 ， 这 里 使 用 ReplaceMissingValuesFilter 过 滤器 替换 缺失 值 ， 使 用 
NominalToBinaryFilter 过 滤器 将 标 称 型 属性 转换 为 数值 型 属性 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
maxIts( 最 大 迭代 次 数 ): 要 执行 的 最 大 迭代 次 数 。 默 认 值 为 -1， 表 示 不 限制 。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

Tidge( 岭 ): 设置 对 数 似 然 的 岭 值 。 默 认 值 为 1.0E-8。 
useConjugateGradientDescent( 使 用 共 思 梯 度 下 降 ): 使 用 共 轿 梯度 下 降 ， 而 非 
BFGS 更 新 。 对 于 有 很 多 参数 的 问题 速度 更 快 。 默 认为 False。 


4) MultilayerPerceptron 

一 种 使 用 反 向 传播 算法 对 实例 进行 分 类 的 分 类 器 。 

该 网 络 可 以 用 手工 构建 、 用 算法 构建 或 两 者 都 用 。 训 练 过 程 中 ， 也 可 以 对 网 络 进行 监 
视 和 更 改 。 除 了 当 类 别 属性 是 数值 型 时 输出 节点 为 unthresholded 线性 单位 之 外 ， 该 网 络 中 
的 节点 全 都 是 S 形 (sigmoid) 的 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


GUI( 图 形 用 户 界 面 ): 带 出 一 个 GUI 界面 。 可 以 在 训练 过 程 中 ， 人 允许 暂停 和 改变 

神经 网 络 。 默 认为 False。 

*  ” 单 击 可 添加 一 个 节点 (将 自动 选择 该 节点 ， 确 保 没有 选择 其 他 节点 )。 

4 ”要 选择 一 个 节点 ， 当 没有 选中 其 他 节点 时 ， 单 击 该 节点 ， 否 则 在 单 击 的 同时 
按 住 Ctrl 键 (切换 节点 选中 或 未 选中 )。 

4 ”要 连接 节点 ， 首 先 选择 起 始 节点 ， 然 后 单 击 结束 节点 或 在 空白 区 域 创 建 一 个 
与 选 定 节点 连接 的 新 节点 。 连 接 后 ， 节 点 的 选择 状态 将 保持 不 变 。 注 意 ， 这 
是 直接 连接 ， 两 个 节点 之 间 的 连接 只 能 建立 一 次 ， 某 些 无 效 连接 将 无 法 进行 。 

4 ”要 删除 一 个 连接 ， 首 先 选择 一 个 连接 的 节点 ， 然 后 右 击 其 他 节点 (删除 连接 
时 ， 不 关心 选中 的 节点 究竟 是 开始 节点 还 是 结束 节点 ， 结 果 都 一 样 )。 

4 要 删除 一 个 节点 ， 当 没有 选中 其 他 节点 (包括 它 自 己 ) 时 ， 右 击 该 节点 即 可 (这 

也 会 删除 它 的 所 有 连接 )。 

要 取消 选择 一 个 节点 ， 可 以 在 按 住 Ctrl 键 的 同时 单 击 它 ， 或 者 右 击 空白 处 。 

左边 的 标签 提供 原始 输入 。 

红色 节点 是 隐藏 层 。 

橙色 节点 是 输出 节点 。 

右边 标签 显示 输出 节点 代表 的 类 别 。 注 意 ， 数 值 类 别 的 输出 节点 将 自动 成 为 

unthresholded 线性 单位 。 
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4 只 能 在 网 络 没有 运行 的 时 候 修改 神经 网 络 ， 这 条 规矩 也 适用 于 在 控制 面板 上 
修改 学 习 速率 等 字段 。 
4 ”用户 可 以 在 任意 时 刻 接 受 网 络 已 训练 完成 。 
4 ”网 络 在 开始 时 自动 暂停 。 
”运行 中 会 指示 网 络 处 于 哪 未， 以 及 该 趟 的 大 致 错误 率 是 多 少 。 该 错误 率 的 值 
是 根据 网 络 变 更 后 计算 而 得 的 。 
4 一旦 网 络 完成 训练 会 再 次 暂停 ， 等 待 用 户 接 受 或 再 次 启动 训练 。 
需要 注意 的 是 ， 如 果 设 置 GUI 为 False， 网 络 就 不 要 求 交互 。 
autoBuild( 自 动 构建 ): 在 网 络 中 添加 并 连接 隐藏 层 。 默 认为 True。 
batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
decay( 衰 减 ): 设置 为 True 将 导致 学 习 速率 降低 。 用 开始 学 习 速 率 除 以 趟 数 ， 以 
确定 当前 的 学 习 速 率 应 该 为 多 少 ， 有 可 能 有 助 于 阻止 网 络 偏离 目标 输出 ， 以 及 改 
善 整体 性 能 。 注 意 ， 学 习 速 率 的 衰减 并 不 会 显示 在 GUI 中 ， 显 示 的 只 有 原来 的 学 
习 速 率 。 如 果 在 GUI 中 改变 学 习 速率 ， 则 视 为 开始 的 学 习 速率 。 默 认为 False。 
hiddenLayers( 隐 藏 层 ): 定义 神经 网 络 的 隐藏 层 ， 为 一 个 用 逗号 分 隔 的 正 整 数列 
表 。1 代表 一 个 隐藏 层 ，0 代表 没有 隐藏 层 。 如 果 设 置 autoBuild 选项 ， 本 选项 才 
可 用 。 支 持 通配符 值 : 'a' = (attribs + classes) / 2,'i' = attribs，'o' = classes，' = 
attribs + classes。 
leamingRate( 学 习 速 率 ): 更 新 权重 的 量 。 默 认 值 为 0.3。 
momentum( 动 量 ): 在 更 新 过 程 中 施加 于 权重 的 动量 。 默 认 值 为 0.2。 
nominalToBinaryFilter( 标 称 到 二 元 过 滤器 ): 用 该 过 滤器 对 实例 进行 预 处 理 。 如 果 
数据 中 有 标 称 型 属性 ， 将 有 助 于 提高 性 能 。 默 认为 True。 
normalizeAttributes( 规 范 化 属性 ): 将 属性 规范 化 ， 这 将 有 助 于 提高 网 络 的 性 能 。 
不 要 求 类 别 属性 一 定 为 数值 型 ， 也 能 将 标 称 型 属性 规范 化 (预先 使 用 标 称 到 二 元 过 
滤器 处 理 )， 使 标 称 值 在 -1 一 1 范围 内 。 默 认为 True。 
normalizeNumericClass( 规 范 化 数值 类 别 ): 如 果 类 别 属性 为 数值 型 ， 则 将 其 规范 
化 。 这 将 有 助 于 改善 网 络 的 性 能 ， 规 范 化 类 别 值 在 -1 一 1 范围 内 。 注 意 ， 这 仅仅 
是 在 内 部 进行 ， 输 出 将 按 比 例 缩放 回 原来 的 范围 。 默 认为 True。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
reset( 重 置 ): 允许 网 络 重 置 为 较 低 的 学 习 速率 。 如 果 网 络 偏离 正确 答案 (发 散 )， 将 
会 自动 重 置 网 络 为 较 低 的 学 习 速 率 ， 并 再 次 开始 训练 。 此 选项 仅 适 用 于 没有 设置 
GUI 选项 时 。 注 意 ， 如 果 网 络 发 散 但 不 允许 重 置 ， 训 练 过 程 将 失败 并 返回 一 个 错 
误 消 息 。 默 认为 True。 
seed( 种 子 ): 用 于 初始 化 随机 数 发 生 器 的 种 子 。 随 机 数 用 于 设置 节点 之 间 连 线 的 
初始 权重 ， 并 用 于 置 乱 训练 数据 的 顺序 。 默 认 值 为 0。 
trainingTime( 训 练 时 间 ): 训练 须 完成 的 趟 数 。 如 果 验 证 集 非 零 ， 则 可 以 提早 终止 
网 络 。 默 认 值 为 500。 


validationSetSize( 验 证 集 大 小 ): 验证 集 的 百分比 大 小 。 本 次 训练 将 持续 进行 ， 直 
到 验证 集 上 观察 到 的 错误 越 来 越 粮 ， 或 者 训练 时 间 到 为 止 。 如 果 设置 为 零 ， 则 不 
使 用 验证 集 ， 网 络 将 完成 指定 趟 数 的 训练 。 默 认 值 为 0。 
validationThreshold( 验 证 阐 值 ): 用 于 终止 验证 测试 。 本 参数 值 决定 在 终止 训练 之 
前 ， 可 以 容忍 一 连 多 少 次 的 变 得 更 糟 的 验证 集 错 误 。 默 认 值 为 20。 


5) SGD 

实现 学 习 各 种 线性 模型 (二 元 分 类 SVM、 二 元 分 类 logistic 回归 、 平 方 损失 、Huber 损 
失 和 epsilon-insensitive 损失 的 线性 回归 ) 的 随机 梯度 下 降 (Stochastic Gradient Descent， 
SGD)。 在 全 局 范围 内 蔡 换 全 部 缺失 值 ， 并 将 标 称 型 属性 转换 成 二 元 属性 。SGD 标准 化 全 
部 属性 ， 所 以 输出 中 的 系数 基于 规范 化 的 数据 。 

对 于 数值 型 属性 ， 必 须 使 用 平方 损失 、Huber 损失 或 epsilon-insensitive 损失 函数 。 

epsilon-insensitive 和 Huber 损失 可 能 要 求 更 高 的 学 习 速率 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 


e ”dontNormalize( 不 规范 化 ): 关闭 规范 化 。 默 认为 False。 

e@ ”dontReplaceMissing( 不 替换 缺失 值 );， 关闭 全 局 替换 缺失 值 选项 。 默 认为 False。 

e@ ”epochs(epochs): 批 学习 中 执行 的 趟 数 。 总 迭代 次 数 为 epochsx 实 例 数量 。 默 认 值 
为 500。 

e ”lambda( 和 ): 正规 化 常数 ， 默 认 值 为 0.0001。 

e ”leamingRate( 学 习 速 率 ): 学 习 速 率 。 如 果 关 闭 规范 化 (对 于 流 式 数据 将 自动 关 
闭 )， 那 么 默认 学 习 速 率 需要 减少 (尝试 0.0001)。 默 认 值 为 0.01。 

e@ ”lossFunction( 损 失 函 数 ): 使 用 的 损失 函数 。Hinge 损失 (SVM)、log 损失 (logistic 回 
归 ) 或 平方 损失 (回归 )。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e “seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

6) SGDText 


实现 对 文本 数据 的 线性 二 元 分 类 SVM 或 二 元 分 类 logistic 回归 学 习 的 随机 梯度 下 降 。 
仅 直 接 操作 字符 串 型 属性 ， 接 受 其 他 类 型 的 输入 属性 ， 在 训练 和 分 类 中 却 忽略 之 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


LNorm(LNorm): 用 于 文件 长 度 规范 化 的 LNorm 参数 。 默 认 值 为 2.0。 
batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
epochs(epochs): 批 学 习 中 执行 的 趟 数 。 总 迭代 次 数 为 epochsx 实 例 数量 。 默 认 值 
为 500。 

lambda( 和 ): 正规 化 常数 ， 默 认 值 为 0.0001。 

leamingRate( 学 习 速率 ): 学 习 速 率 。 

lossFunction( 损 失 函 数 ): 使 用 的 损失 函数 。Hinge 损失 (SVM)、log 损失 (logistic 回 
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归 ) 或 平方 损失 (回归 )。 

lowercaseTokens( 标 记 小 写 ): 是 否 将 所 有 标记 转换 为 小 写 。 默 认为 False。 
minAbsoluteCoefficientValue( 最 小 绝对 系数 值 ): 模型 系数 的 最 小 绝对 值 。 忽 略 权 
重 小 于 该 值 的 词 条 。 如 果 periodicPruning 选项 不 为 0， 该 系数 还 用 于 确定 是 否 将 
一 个 词 从 字典 中 删除 。 

minWordFrequency( 最 低 单词 频率 ): 忽略 训练 数据 中 出 现 次 数 低 于 该 值 的 全 部 单 
词 。 如 果 periodicPruning 选项 不 为 0， 则 根据 该 值 对 字典 进行 修剪。 

norm( 范 数 ): 规范 化 以 后 实例 的 范 数 。 默 认 值 为 1.0。 
normalizeDocLength( 规 范 化 文档 长 度 ): 如 果 为 True， 则 根据 norm 和 LNorm 的 设 
置 ， 规 范 化 文档 长 度 。 默 认为 False。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

outputProbsForSVM(SVM 输出 概率 ): 拟 合 logistic 回归 至 SVM 输出 ， 以 生成 概 
率 估 计 。 默 认为 False。 

periodicPruning( 定 期 修剪 ): 修剪 词典 里 低频 词 条 的 频率 (实例 的 数量 )，0 表示 不 
进行 修剪 ， 正 整数 n 表示 每 经 过 n 个 实例 后 进行 修剪 。 默 认 值 为 0。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

stemmer( 词 干 分 析 器 ): 用 于 单词 的 词 干 提取 算法 。 
stopwordsHandler( 停 用 词 处 理 器 ): 所 使 用 的 停 用 词 处 理 器 ，Null 表示 不 使 用 停 
用 词 。 

tokenizer( 分 词 器 ): 用 于 字符 串 的 分 词 算法 。 

useWordFrequencies( 使 用 词 频 ): 使 用 词 频 ， 而 不 是 表示 词 的 二 元 包 。 默 认为 False。 


7) SimpleLinearRegression 
一 个 简单 的 线性 回归 学 习 模 型 。 选 择 导 致 平方 误差 最 低 的 属性 ， 只 能 处 理 数值 型 属性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

outputAdditionalStats( 输 出 附加 统计 数据 ): 输出 额外 的 统计 数据 (如 系数 标准 偏差 
和 + 统计 量 )。 


8) SimpleLogistic 
构建 线性 logistic 回归 模型 的 分 类 器 。 带 简单 回归 函数 的 LogitBoost 作为 基本 学 习 器 ， 
用 于 拟 合 logistic 模型 。LogitBoost 迭代 执行 的 最 佳 次 数 是 交叉 验证 ， 这 导致 自动 的 属性 


选择 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
errorOnProbabilities( 概 率 误差 ): 使 用 概率 误差 作为 误差 度量 ， 以 确定 最 佳 的 


LogitBoost 迭代 次 数 。 如 果 置 位 ， LogitBoost 迭代 次 数 的 选择 根据 是 最 小 化 均 方 
根 误差 (无 论 是 训练 集 ， 还 是 交叉 验证 ， 取 决 于 useCrossValidation 选项 )。 默 认 
为 False。 

heuristicStop( 启 发 式 停止 ): 如 果 heuristicStop>0， 则 启用 交叉 验证 LogitBoost 先 
代 次 数 的 启发 式 贪 禁 停止 算法 。 这 意味 着 ,在 最 后 的 heuristicStop 运 代 中 ， 如 果 
没有 达到 新 的 误差 最 小 值 ， 则 停止 LogitBoost。 建 议 使 用 此 启发 式 选项 ， 它 提供 
极 快 的 速度 ， 尤 其 是 针对 小 数据 集 。 默 认 值 为 50。 
ImaxBoostingIterations(LogitBoost 最 大 迭代 次 数 ): 设置 LogitBoost 的 最 大 迭代 次 
数 。 默 认 值 为 500。 对 于 非常 小 /大 的 数据 集 ， 将 该 值 设 为 较 低 / 较 高 可 能 更 好 。 
numBoostingIterations(LogitBoost 迭代 次 数 ): 设置 LogitBoost 的 固定 迭代 次 数 。 
如 果 大 于 或 等 于 0， 执 行 设置 的 LogitBoost 迭代 次 数 。 如 果 小 于 0， 该 数字 用 于 
交叉 验证 ， 或 作为 训练 集 的 停止 判 据 ( 根 据 useCrossValidation 选项 的 值 而 定 )。 默 
认 值 为 0。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

useAIC( 使 用 AIC): 使 用 AIC 信息 准则 以 确定 何 时 停止 LogitBoost 友 代 (而 不 是 交 
叉 验证 或 训练 误差 )。 默 认为 False。 

useCrossValidation( 使 用 交叉 验证 ): 是 否 根据 交叉 验证 来 设置 LogitBoost 迭代 次 
数 ， 或 对 训练 集 使 用 停止 判 据 。 如 果 没 有 设置 ( 且 没 有 给 定 固定 迭代 次 数 )， 
LogitBoost 迭代 次 数 用 于 最 大 限度 地 减少 在 训练 集 上 的 错误 ( 误 分 错误 或 概率 误差 
取决 于 errorOnProbabilities 选项 )。 默 认为 True。 

weightTrimBeta( 权 重 裁 前 8 值 ): 设置 在 LogitBoost 中 权重 裁剪 所 使 用 的 6 值 。 只 
有 在 前 一 次 迭代 中 带 有 (1-B)% 权 重 的 实例 能 在 下 一 次 迭代 中 使 用 。 设 置 为 0， 不 
进行 权重 裁剪 。 默 认 值 为 0.0。 


9) SMO 

实现 John Platt 提出 的 序列 最 小 优化 算法 的 支持 向 量 分 类 器 。 

实现 对 全 部 缺失 值 进行 全 局 替代 ， 并 将 标 称 型 属性 转换 成 二 元 属性 。 默 认 情况 下 ， 规 
范 化 全 部 属性 。 在 这 种 情况 下 ， 输 出 的 系数 是 根据 规范 化 后 的 数据 (而 不 是 原始 数据 ) 得 出 
的 ， 这 对 于 分 类 器 的 解释 很 重要 。 

使 用 成 对 的 分 类 (pairwise classification ，1 对 1， 且 logistic 模型 按照 Hastie 和 
Tibshirani 在 1998 年 提出 的 模型 构建 成 为 耦合 对 ) 方 法 ， 以 解决 多 类 别 (multi-class) 问 题 。 

为 了 获得 正确 的 概率 估计 ， 使 用 将 logistic 回归 模型 拟 合 至 支持 向 量 机 输出 的 选项 。 
在 多 类 别 情况 下 ， 预 测 概率 结合 使 用 Hastie 和 Tibshirani 的 成 对 耦合 方法 。 

注意 ， 为 了 提高 速度 ， 应 在 处 理 SparseInstances( 稀 疏 实 例 ) 时 关闭 规范 化 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
buildLogisticModels( 构 建 logistic 模型 ): 是 否 将 logistic 模型 拟 合 至 输出 (恰当 的 概 
率 估 计 )。 默 认为 False。 
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c( 参 数 C): 复杂 参数 C。 默 认 值 为 1.0。 

checksTurnedOff( 关 闭 检查 ): 关闭 耗 时 检查 ， 请 谨慎 使 用 。 默 认为 False。 
epsilon(epsilon): 舍 入 误差 的 epsilon( 不 应 该 改变 )。 默 认 值 为 1.0E-12。 
filterType( 过 滤器 类 型 ): 确定 数据 是 否 转换 以 及 如 何 转换 。 有 三 个 可 选项 : 
Normalize training data( 规 范 化 训练 数据 )、Standardize training data( 标 准 化 训练 数 
据 ) 和 No normalization/standardization( 不 规范 化 /标准 化 ， 即 不 改变 )。 

kernel( 核 ): 使 用 的 核 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 用 于 logistic 模型 生成 训练 数据 的 交叉 验证 的 折 数 (-1 表示 使 用 
训练 数据 )。 默 认 值 为 -1。 

randomSeed( 随 机 种 子 ): 交叉 验证 的 随机 数 种 子 。 

toleranceParameter( 容 差 参 数 ): 容 差 参数 (不 应 该 改变 )。 默 认 值 为 0.001。 


10) SMOreg 

SMOreg 实现 了 支持 向 量 机 回归 ， 使 用 各 种 算法 可 以 学 习 到 参数 ， 通 过 设置 
regOptimizer 来 选择 算法 。 最 流行 的 算法 (RegSMOImproved) 由 Shevade、Keerthi 等 人 给 
出 ， 这 是 默认 的 优化 算法 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

c( 参 数 C): 复杂 参数 C。 默 认 值 为 1.0。 

filterType( 过 滤器 类 型 ): 确定 数据 是 否 转换 以 及 如 何 转换 。 有 三 个 可 选项 : 
Normalize training data( 规 范 化 训练 数据 )、Standardize training data( 标 准 化 训练 数 
据 ) 和 No normalization/standardization( 不 规范 化 /标准 化 ， 即 不 改变 )。 

kernel( 核 ): 使 用 的 核 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

regOptimizer( 回 归 优 化 器 ): 学 习 算 法 。 可 选 算法 有 RegSMO 和 RegSMOImproved 
(默认 )。 


11) VotedPerceptron 
实现 由 Freund 和 Schapire 提出 的 表决 感知 算法 。 全 局 替代 全 部 缺失 值 ， 并 将 标 称 型 属 
性 转换 成 二 元 属性 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批 量 预 测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
exponent( 指 数 ): 多 项 式 核 的 指数 。 默 认 值 为 1.0。 

maxK( 最 大 K): 感知 器 的 最 大 数量 改变 。 默 认 值 为 10000。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 


lazy 


numlterations( 迭 代 次 数 )， 要 执行 的 迭代 次 数 。 默 认 值 为 1。 
seed( 种 子 ): 随机 数 发 生 器 的 种 子 。 默 认 值 为 1。 


1) IBK 
左 最 近邻 分 类 器 。 可 以 在 交叉 验证 的 基础 上 选择 合适 的 大 值 ， 也 可 以 加 距离 加 权 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


KNN(k-NN): 使 用 的 邻居 数量 。 默 认 值 为 1。 

batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
crossValidate( 交 叉 验 证 ): 是 否 使 用 hold-one-out 交叉 验证 来 选择 从 1 至 KNN 参 
数 指 定 值 范围 内 的 最 佳 大 值 。 默 认为 False。 

distanceWeighting( 距 离 加 权 ): 使 用 距离 加 权 方 法 。 可 选项 有 No distance 
weighting( 不 使 用 距离 加 权 )、Weight by 1/distance( 权 重 为 1/distance) 和 Weight by 
1-distance( 权 重 为 1-distance)。 

meanSquared( 均 方 误差 ): 当 交 叉 验证 回归 问题 时 ， 是 否 使 用 均 方 误差 ， 而 不 是 使 
用 平均 绝对 误差 。 默 认为 False。 
nearestNeighbourSearchAlgorithm( 最 近邻 搜索 算法 ): 使 用 的 最 近邻 搜索 算法 ， 默 
认为 weka.core.neighboursearch.LinearNNSearch。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

windowSize( 窗 口 大 小 ): 训练 池 人 允许 的 实例 的 最 大 数量 。 如 果 增 加 新 实例 后 实例 
数量 大 于 此 值 ， 将 导致 日 实例 被 删除 。 值 为 0 表示 不 限制 训练 实例 的 数量 。 默 认 
值 为 0。 


2) KStar 

KStar 是 基于 实例 的 分 类 器 ， 由 某 种 相似 度 函数 作为 判断 依据 ， 将 测试 实例 的 类 别 判 
决 为 类 似 于 它 的 训练 实例 的 类 别 。 该 分 类 器 与 其 他 基于 实例 的 学 习 器 的 不 同 之 处 在 于 它 使 
用 基于 灼 距离 函数 。 


通用 


对 象 编辑 器 中 的 选项 说 明 如 下 。 

batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
entropicAutoBlend( 焙 自动 融合 ): 是 否 使 用 基于 粹 的 融合 。 默 认为 False。 
globalBlend( 全 局 融合 ): 全 局 融合 的 参数 ， 取 值 限制 为 [0,100]。 默 认 值 为 20。 
missingMode( 缺 失 模 式 ): 确定 如 何 处 理 缺 失 属性 值 。 可 选项 有 Ignore the instances 
with missing values( 忽 略 含 缺失 值 的 实例 )、Treat missing values as maximally 
different( 将 缺失 值 处 理 为 最 大 不 同 值 )、Normalize over the Attributes( 规 范 化 属性 ) 
和 Average column entropy curves( 平 均 列 和 曲 线 ， 这 是 默认 值 )。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
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数据 挖 所 与 机 器 学 习 
3) LWL 
LWL 即 局 部 加 权 学 习 (Locally Weighted Learmming)。 使 用 基于 实例 的 算法 分 配 实例 权 
重 ， 然 后 将 权重 用 于 指定 的 WeightedInstancesHandler( 加 权 实 例 处 理 程序 )。 

可 以 用 于 分 类 (如 使 用 朴素 贝 叶 斯 ) 或 回归 (如 使 用 线性 回归 )。 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

e ”KNN(k-NN): 使 用 的 邻居 数量 ， 用 于 确定 加 权 函 数 的 宽度 ， 小 于 等 于 0 指 全 部 邻 
居 。 默 认 值 为 -1。 

e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e@ “classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

e nearestNeighbourSearchAlgorithm( 最 近邻 搜索 算法 ): 使 用 的 最 近邻 搜索 算法 ， 默 
认为 LinearNN。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e ”weightingKemel( 加 权 核 )， 确定 加 权 函 数 。0= 线 性 ，1=Epnechnikov，2=Tricube， 
3=Inverse，4= 高 斯 ，5= 常 数 。 默 认 值 为 0。 


meta 


1) AdaBoost M1 
使 用 Adaboost 的 M1 方法 ， 提 升 标 称 型 类 别 的 分 类 器 类 。 只 能 处 理 标 称 型 类 别 的 问 
通常 会 显著 提高 性 能 ， 但 有 时 会 过 拟 合 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”batchSize( 批 大 小 ):， 如 果 执行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
numlterations( 迭 代 次 数 )， 要 执行 的 迭代 次 数 。 默 认 值 为 10。 
seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 
useResampling( 使 用 重 采样 );， 是 否 使 用 重 采样 来 替代 重新 加 权 。 默 认为 False。 
weightThreshold( 权 重 阔 值 ): 权重 修剪 的 权重 阔 值 。 默 认 值 为 100。 

2) AdditiveRegression 

一 种 元 分 类 器 ， 增 强 了 回归 基 分 类 器 的 性 能 。 每 一 次 迭代 拟 合 分 类 器 上 一 次 迭代 遗留 
的 残 差 模型 。 通 过 增加 每 个 分 类 器 的 预测 来 完成 预测 。 减 少 收缩 率 (学 习 率 ) 参 数 可 以 防止 
过 度 拟 合 ， 并 得 到 平滑 的 效果 ， 但 会 增加 学 习 时 间 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 

一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 


本 


@ 


numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numIterations( 迁 代 次 数 ): 要 执行 的 迭代 次 数 。 默 认 值 为 10。 

shrinkage( 收 缩 率 ): 收缩 速率 。 较 小 的 值 有 助 于 防止 过 度 拟 合 ， 并 得 到 平滑 的 效 
果 ( 但 增加 学 习 时 间 )。 默 认 值 为 1.0， 即 不 收缩 。 


3) AttributeSelectedClassifier 


先 通过 属性 选择 ， 减 少 训练 和 测试 数据 的 维度 ， 然 后 再 传递 给 分 类 器 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

e ”evaluator( 评 估 器 ): 使 用 的 属性 评估 器 。 该 评估 器 在 调用 分 类 器 之 前 的 属性 选择 
阶段 使 用 。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e “search( 搜 索 ): 搜索 方法 。 该 搜索 方法 在 调用 分 类 器 之 前 的 属性 选择 阶段 使 用 。 可 
选 搜索 方法 有 BestFirst( 默 认 )、GreedyStepwise 和 Ranker。 

4) Bagging 

减少 方差 (variance) 的 装 袋 (bagging) 分 类 器 类 。 依 赖 基 学 习 器 ， 能 完成 分 类 和 回归 

学 习 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ ”bagSizePercent( 袋 大 小 百分比 ): 每 个 袋 的 大 小 ， 为 训练 集 大 小 的 百分比 。 

e ”batchSize( 批 大 小 )， 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e calcOutOfBag( 计 算 袋 外 误差 ): 是 否 计算 袋 外 误差 (OutrOfBag Error，OOB Er)。 
默认 为 False。 

e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e “numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 (ensemble) 的 执行 槽 的 数量 ( 线 
程 )。 默 认 值 为 1。 

enumIterations( 和 迭代 次 数 ): 要 执行 的 迭代 次 数 。 默 认 值 为 10。 

e@ “representCopiesUsingWeights( 使 用 权重 表示 副本 ): 是 否 使 用 权重 而 不 是 显 式 地 表 
示 实 例 的 副本 。 默 认为 False。 

e ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

5) ClassificationViaRegression 

使 用 回归 方法 完成 分 类 的 类 。 二 元 化 类 别 属性 ， 并 为 每 一 个 类 别 值 建立 一 个 回归 

模型 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
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batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 


6) CostSensitiveClassifier 


一 种 


元 分 类 器 ， 其 基 分 类 器 对 代价 敏感 。 有 两 种 方法 可 用 于 引入 代价 灵敏 度 : 根据 分 


配给 每 个 类 别 的 总 代价 ， 重 新 加 权 训 练 实例 ;根据 最 低 的 预期 误 判 代价 (而 不 是 最 有 可 能 此 
类 别 ) 预 测 类 别 。 通 过 使 用 装 袋 分 类 器 (bagged classifier)， 以 改善 基 分 类 器 的 概率 估计 ， 通 


常 能 够 提 
通用 


高 性 能 。 

对 象 编辑 器 中 的 选项 说 明 如 下 。 

batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

costMatrix( 代 价 和 矩阵 ): 明确 设置 代价 和 矩阵。 如 果 将 costMatrixSource 选项 设置 为 
Use explicit cost matrix( 使 用 明确 提供 的 代价 矩阵 )， 就 要 使 用 该 矩阵 。 注 意 ， 
costMatrix 和 costMatrixSource 选项 有 联动 关系 ， 当 设置 costMatrix 选项 后 ， 
costMatrixSource 选项 会 自动 设置 为 Use explicit cost matrix。 
costMatrixSource( 代 价 和 矩阵 源 ): 设置 获取 代价 矩阵 的 来 源 。 有 两 个 选项 可 用 : 一 
是 Use explicit cost matrix， 使 用 明确 提供 的 代价 矩阵 (设置 costMatrix 属性 ); 二 是 
Load cost matrix on demand( 默 认 )， 在 需要 时 加 载 一 个 代价 矩阵 文件 (该 文件 会 从 
由 onDemandDirectory 选项 设置 的 目录 进行 加 载 ， 并 命名 为 relation_name.cost)。 
minimizeExpectedCost( 最 低 预 期 代价 ): 设置 是 否 使 用 最 低 预期 代价 标准 。 如 果 设 
置 为 False， 根 据 分 配给 每 个 分 类 的 代价 ， 重 新 对 训练 数据 进行 加 权 。 如 果 为 
True， 则 使 用 最 低 的 预期 代价 标准 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

onDemandDirectory( 按 需 目 录 ): 设置 要 加 载 的 代价 文件 所 在 目录 。 此 选项 在 将 
costMatrixSource 选项 设置 为 Load cost matrix on demand 的 时 候 使 用 。 注 意 ， 
onDemandDirectory 和 costMatrixSource 选项 有 联动 关系 ， 当 设置 
onDemandDirectory 选项 后 ，costMatrixSource 选项 会 自动 设置 为 Load cost matrix 
on demand。 


seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1 。 


7) CVParameterSelection 


通用 


任意 分 类 器 的 交叉 验证 ， 完 成 参数 选择 的 类 。 

对 象 编辑 器 中 的 选项 说 明 如 下 。 

CVParameters(CV 参数 ): 设置 学 习 方案 的 配置 参数 ， 这 些 参数 都 可 以 由 交叉 验证 
进行 调整 。 

每 个 字符 串 的 格式 应 该 是 : 


参数 字符 下 界 上 界 步 数 (param char lower bound upper bound number of steps) 
例如 ， 从 1 到 10 增 量 为 1， 搜 寻 参 数 为 -P: 

于 110140"” 

batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 获取 用 于 交叉 验证 的 折 数 。 默 认 值 为 10。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 


8) FilteredClassifier 

对 通过 任意 过 滤器 所 传递 数据 进行 操作 的 任意 分 类 器 类 。 与 分 类 器 一 样 ， 过 滤器 结构 
完全 基于 训练 数据 ， 过 滤器 处 理 测试 实例 但 不 改变 其 结构 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 基 学 习 器 为 BatchPredictor 时 指定 的 批 大 小 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

filter( 过 滤器 ): 要 使 用 的 过 滤器 。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 


9 ) IterativeClassifierOptimizer 
使 用 交叉 验证 来 优化 迭代 次 数 的 迭代 分 类 器 。 
通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classValueIndex( 类 别 值 索引 ): 使 用 信息 检索 类 型 指标 的 类 别 值 索 引 。 小 于 0 的 值 
表示 使 用 指标 的 类 别 加 权 平 均 版 本 。 默 认 值 为 -1。 

evaluationMetric( 评 价 指标 ): 使 用 的 评价 指标 。 可 选 指标 有 RMSE 、RAE、 
RRSE、 Coverage、 Region size、TP rate、FP rate 和 Precision 。 
iterativeClassifier( 迭 代 分 类 器 ): 要 优化 的 迭代 分 类 器 。 
lookAheadIterations( 预 看 迭代 次 数 ): 预 看 的 迭代 次 数 ， 用 以 找到 一 个 更 好 的 最 优 
参数 。 默 认 值 为 50。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 交叉 验证 的 折 数 。 默 认 值 为 10。 

numRuns( 运 行 次 数 ): 交叉 验证 的 运行 次 数 。 默 认 值 为 1。 

numThreads( 线 程 数 ): 使 用 线程 的 数量 ， 应 该 大 于 等 于 线程 池 的 大 小 。 默 认 值 为 1。 
poolSize( 线 程 池 大 小 ): 线程 池 的 大 小 ， 如 CPU 的 核 的 数量 。 默 认 值 为 1。 
seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1 。 

stepSize( 步 长 ): 评估 的 步 长 ， 如 果 评 估 费 时 可 增 大 步 长 。 默 认 值 为 1 。 
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useAverage( 使 用 平均 ): 如 果 该 选项 为 True， 使 用 平均 估计 代替 一 个 估计 。 


10) LogitBoost 

执行 递增 logistic 回归 的 类 。 

该 类 使 用 回归 方法 为 基 学 习 器 进行 分 类 ， 并 能 处 理 多 类 别 问 题 。 
能 进行 有 效 的 内 部 交叉 验证 ， 以 确定 合适 的 迭代 次 数 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


ZMax (Z 最 大 阔 值 ): 响应 的 Z 最 大 闵 值 。 默 认 值 为 3.0。 

batchSize( 批 大 小 ): 该 选项 没有 在 LogitBoost 中 使 用 。 

classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

likelihoodThreshold( 似 然 阔 值 ): 提高 似 然 的 阔 值 。 默 认 值 为 -1.7976931348623157E308。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numIterations( 和 迭代 次 数 ): 要 执行 的 迭代 次 数 。 默 认 值 为 10。 
numThreads( 线 程 数 ): 批 预测 中 使 用 的 线程 数量 ， 应 该 大 于 等 于 线程 池 的 大 小 。 
默认 值 为 1。 

poolSize( 线 程 池 大 小 ): 线程 池 的 大 小 ， 如 CPU 的 核 的 数量 。 默 认 值 为 1 。 
seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

shrinkage( 收 缩 率 ): 收缩 率 参数 。 使 用 较 小 的 值 (如 0.1) 可 减少 过 度 拟 合 。 默 认 值 
为 1.0。 

useResampling( 使 用 重 采 样 ): 是 否 使 用 重 采样 来 替代 重新 加 权 。 默 认为 False。 
weightThreshold( 权 重 阐 值 ); 权重 修剪 的 权重 阔 值 。 默 认 值 为 100， 为 加 快 学 习 过 
程 可 减少 到 90。 


11) MultiClassClassifier 

一 种 元 分 类 器 ， 使 用 二 元 分 类 器 处 理 多 类 别 数据 集 。 该 分 类 器 也 能 够 对 输出 编码 进行 
纠 错 ， 以 提高 精度 。 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

logLossDecoding( 对 数 损失 译 码 )， 对 随机 码 或 力 竭 码 (exhaustive codes) 使 用 对 数 损 
失 译 码 (log loss decoding)。 默 认为 False。 

method( 方 法 ): 设置 将 多 元 分 类 问题 转化 成 多 个 二 元 分 类 问题 所 使 用 的 方法 。 可 
选 方法 有 1-against-all( 默 认 )、Random correction code、Exhaustive correction code 
和 1-against-1。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

randomWidthFactor( 随 机 宽度 系数 ): 设置 使 用 随机 编码 时 的 宽度 乘 子 。 所 生成 的 
编码 数量 因此 需 与 类 别 数量 进行 数 乘 。 默 认 值 为 2.0。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 


e usePairwiseCoupling( 使 用 成 对 耦合 ): 使 用 成 对 耦合 ( 仅 对 1-against-1 有 效 )。 默 认 
为 False。 
12) MultiClassClassifierUpdateable 
一 种 元 分 类 器 ， 使 用 二 元 分 类 器 处 理 多 类 别 数据 集 。 该 分 类 器 也 能 够 对 输出 编码 进行 
纠 错 ， 以 提高 精度 。 要 求 基 分 类 器 必须 是 可 更 新 的 分 类 器 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e “batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
e@ logLossDecoding( 对 数 损失 译 码 ): 对 随机 码 或 力 竭 码 使 用 对 数 损失 译 码 。 默 认为 
False。 
e ”method( 方 法 ): 设置 将 多 元 分 类 问题 转化 成 多 个 二 元 分 类 问题 所 使 用 的 方法 。 可 
选 方法 有 1-against-all( 默 认 )、Random correction code、Exhaustive correction code 
和 1-against-1。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
e IandomWidthFactor( 随 机 宽度 系数 ): 设置 使 用 随机 编码 时 的 宽度 乘 子 。 所 生成 的 
编码 数量 因此 需 与 类 别 数量 进行 数 乘 。 默 认 值 为 2.0。 
e@ ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 
e usePairwiseCoupling( 使 用 成 对 耦合 ): 使 用 成 对 耦合 ( 仅 对 1-against-1 有 效 )。 默 认 
为 False。 
13) MultiScheme 
根据 几 个 分 类 器 对 训练 数据 进行 交叉 验证 或 在 训练 数据 上 的 表现 ， 从 中 选择 一 个 分 类 
器 的 类 。 根 据 百分比 正确 率 (分 类 ) 或 均 方 误差 (回归 ) 衡 量 其 表现 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e@ “batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e@ ”classifiers( 分 类 器 ): 从 中 选取 的 基 分 类 器 。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
e ”numFolds( 折 数 ):; 用 于 交叉 验证 的 折 数 。 如 果 为 0， 表 示 使 用 在 训练 数据 上 的 表 
现 。 默 认 值 为 0。 
e ”seed( 种 子 ):; 用 于 交叉 验证 的 随机 化 数据 的 种 子 。 默 认 值 为 1。 
14) RandomCommittee 
用 于 构建 可 随机 化 基 分 类 器 的 系 综 (ensemble) 类 。 每 个 基 分 类 器 采用 不 同 的 随机 数 种 
子 (但 基于 相同 的 数据 ) 构 建 。 最 终 的 预测 是 单个 基 分 类 器 所 产生 的 预测 的 直接 平均 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e@ “batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
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e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 


值 为 2。 
enumExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 的 执行 楼 (线程 ) 的 数量 。 默 认 值 
为 1。 


e@ numrIterations( 和 迭代 次 数 ): 要 执行 的 迭代 次 数 。 默 认 值 为 10。 

e seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

15)RandomizableFilteredClassifier 

FilteredClassifier 的 一 个 简单 的 变 体 ， 实 现 Randomizable 接口 ， 使 用 
RandomCommittee 元 学 习 器 构建 系 综 分 类 器 。 它 要 求 过 滤器 或 基 学 习 器 实现 Randomizable 
接口 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ ”batchSize( 批 大 小 )， 基 学 习 器 为 BatchPredictor 时 使 用 的 批 大 小 。 默 认 值 为 100。 

e@ classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

e ”filter( 过 滤器 ): 要 使 用 的 过 滤器 。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e@ ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

16) RandomSubSpace 

本 方法 构建 一 个 基于 决策 树 的 分 类 器 ， 能 对 训练 数据 保持 最 高 的 准确 度 ， 并 在 复杂 度 

增 大 时 相应 提高 泛 化 精度 。 通 过 伪 随 机 选择 特征 向 量 的 成 分 子 集 构成 树 ， 即 树 由 随机 选择 

的 子 空 间 构成 ，RandomSubSpace 分 类 器 由 多 棵 这 样 的 树 按 规则 构建 而 成 。 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

e@ ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 


值 为 2。 
e numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 的 执行 槽 (线程 ) 的 数量 。 默 认 值 
为 Ls 


。 ”numlterations( 迭 代 次 数 ): 要 执行 的 欠 代 次 数 。 默 认 值 为 10。 

eseed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

esubSpaceSize( 子 空间 大 小 ): 每 个 子 空间 的 大 小 。 如 果 小 于 1， 使 用 属性 数量 的 百 

分 比 ， 和 否则 使 用 属性 的 绝对 数量 。 默 认 值 为 0.5。 

17) RegressionByDiscretization 

采用 任意 分 类 器 ， 对 类 别 属 性 已 离散 化 的 数据 副本 进行 分 类 的 回归 方案 。 其 预测 值 是 
每 个 离散 间隔 (每 个 间隔 以 预测 概率 为 基础 ) 平 均 类 别 值 的 期 望 值 。 该 Java 类 现在 也 支持 条 
件 密度 估计 器 ， 该 估计 器 是 由 训练 数据 的 目标 值 通过 类 别 概率 进行 加 权 构 建成 的 单 变量 密 
度 估计 器 。 


六 
多 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

deleteEmptyBins( 删 除 空 箱 ): 是 否 在 离散 化 后 删除 空 箱 。 默 认为 False。 
estimator( 估 计 器 ): 使 用 的 密度 估计 器 。 

IminimizeAbsoluteError( 最 小 化 绝对 误差 ): 是 否 最 小 化 绝对 误差 。 默 认为 False。 
numBins( 箱 数 ): 离散 化 的 箱 数 。 默 认 值 为 10。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

useEqualFrequency( 使 用 等 频 ): 如 果 设 置 为 Tme， 则 使 用 等 频 分 箱 ， 而 不 是 等 宽 
分 箱 。 默 认为 False。 


18) Stacking 
使 用 堆 熏 (stacking) 方 法 ， 组 合 多 个 分 类 器 ， 能 够 完成 分 类 或 回归 操作 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 

metaClassifiers (元 分 类 器 ): 使 用 的 元 分 类 器 。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 的 执行 槽 (线程 ) 的 数量 。 默 认 值 
为 1。 

numFolds( 折 数 ): 用 于 交叉 验证 的 折 数 。 默 认 值 为 10。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 


19) Vote 
组 合 多 个 分 类 器 的 类 。 分 类 有 不 同 的 概率 估计 组 合 可 用 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
classifiers( 分 类 器 ): 使 用 的 基 分 类 器 。 

combinationRule( 组 合 规则 ): 所 使 用 的 组 合 规则 。 可 选 规则 有 Average of 
Probabilities 、Product of Probabilities、Majority Voting、 Minimum Probability、 
Maximum Probability 和 Median。 

doNotPrintModels( 不 打印 模型 ): 不 在 输出 中 打印 单 棵 树 。 默 认为 False。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

preBuiltClassifiers( 预 建 分 类 器 ): 要 包括 的 预 建 序列 化 分 类 器 。 可 以 包括 本 分 类 器 
运行 后 构建 的 多 个 序列 化 分 类 器 。 注 意 ， 在 交叉 验证 中 包括 预 建 分 类 器 没有 意 
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义 ， 因 为 这 些 分 类 器 是 静态 的 ， 并 且 其 模型 在 不 同 折 之 间 不 会 改变 。 
e ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 


misc 


1) InputMappedClassifier 
一 种 包装 (wrapper) 分 类 器 ， 通 过 建立 训练 数据 (其 分 类 器 已 建成 ) 与 输入 测试 实例 的 结 
构 之 间 的 映射 ， 解决 训练 和 测试 数据 的 不 相 容 问题 。 在 输入 实例 中 没有 找到 的 模型 属性 接 
收 为 缺失 值 ， 以 前 没有 见 过 的 输入 标 称 型 属性 值 也 照 此 处 理 。 可 以 训练 一 个 新 的 分 类 器 ， 
或 者 从 文件 中 加 载 一 个 现 有 的 分 类 器 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 ?。 
e@ ”classifier( 分 类 器 ): 使 用 的 基 分 类 器 。 
e@ ”ignoreCaseForNames( 忽 略 名 称 大 小 写 ): 匹配 属性 名 称 和 标 称 值 时 忽略 大 小 写 。 默 
认为 True。 
e ”modelPath( 模 型 路 径 )， 设置 加 载 模型 的 路 径 。 当 接收 到 第 一 个 测试 实例 时 ， 启 动 
加 载 。 环 境 变量 可 以 用 于 提供 路 径 。 
e ”suppressMappingReport( 抑 制 映射 报告 ): 不 输出 模型 -输入 映射 (model-to-input 
mappings) 的 报告 。 默 认为 False。 
e trim( 去 除 空白 ): 在 匹配 前 ， 从 每 一 属性 名 称 和 标 称 值 的 末尾 开始 去 除 空白 。 默 认 
为 True。 
2) SerializedClassifier 
一 个 序列 化 分 类 器 模型 的 包装 器 。 本 分 类 器 加 载 一 个 序列 化 模型 ， 并 用 它 来 进行 预测 。 
警告 : 由 于 序列 化 模型 不 会 改变 ， 本 分 类 器 不 能 使 用 交叉 验证 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
。 imodelFile( 模 型 文件 ): 用 于 预测 的 序列 化 分 类 器 模型 。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
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1) DecisionTable 

用 于 构建 简单 决策 表 的 Java 类 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 

e@ crossVal( 交 叉 值 ): 设置 交叉 验证 的 折 数 (1= 留 一 法 )。 默 认 值 为 1。 

e displayRules( 显 示 规 则 ): 设置 是 否 要 将 规则 打印 出 来 。 默 认为 False。 


@ 在 线 帮助 中 有 numDecimalPlaces、batchSize、debug 和 doNotCheckCapabilities， 但 在 通用 对 象 编辑 器 
y 对 话 框 中 没有 ， 估 计 有 BUG。 


多 


e ”evaluationMeasure( 评 估 度 量 ): 在 决策 表 中 用 于 对 属性 组 合 的 性 能 进行 评估 的 度量 。 
e ”numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

e ”search( 搜 索 ): 在 决策 表 中 用 于 查找 好 的 属性 组 合 的 搜索 方法 。 

。 ”useIBk (使 用 IBk): 设置 是 否 使 用 IBk 来 代替 多 数 类 别 。 默 认为 False。 

2) JRip 

该 类 实现 了 命题 规则 学 习 器 一 一 重复 增 量 修剪 以 减少 产生 错误 (Repeated Incremental 
Pruning to Produce Error Reduction，RIPPER)，RIPPER 是 由 William W. Cohen 提出 的 一 个 
优化 版 本 的 IREP。 

该 算法 的 简要 描述 如 下 。 

初始 化 RS= f}，FOR 从 使 用 较 少 到 使 用 更 频繁 的 每 个 类 别 ，DO: 

(1) 构建 阶段 :重复 (A) 和 (B)， 直 到 规则 集 和 样本 的 描述 长 度 (DL) 比 至 今 遇 到 过 的 最 小 
DL 长 64 位 ， 或 者 没有 正 例 样本 ， 或 者 错误 率 大 于 等 于 50%。 

(A) 成 长 阶段 : 通过 向 规则 贪 禁地 添加 前 置 因素 (或 条 件 )， 直 到 规则 完美 ( 即 100% 准 
确 )。 程 序 尝试 每 个 属性 的 每 一 个 可 能 取 值 ， 并 选择 具有 最 高 信息 增益 的 条 件 : p(log(p/D- 
log(P/T))。 其 中 ，p 和 分别 为 新 规则 覆盖 的 正 例 数量 和 实例 总 数 ，P 和 了 分 别 为 添加 新 测 
试 之 前 满足 规则 的 正 例 数量 和 实例 总 数 。 

(B) 修剪 阶段 : 增 量 修剪 每 一 个 规则 ， 人 允许 修剪 前 置 因素 的 任意 最 终 序 列 ， 修 前 度量 为 
-n/ptn)， 但 实际 是 2p/(ptn)-1， 所 以 在 本 实现 中 简单 使 用 p/(ptn( 实 际 是 
Dt1)/ptn+2)， 因 此 ， 如 果 ptn 为 0， 其 值 为 0.5)。 其 中 ，n=t-p， 为 规则 覆盖 的 负 例 数量 。 

(2) 优化 阶段 ， 生 成 初始 规则 集 {Ri} 后 ， 使 用 步 又 (A) 和 (B)， 由 随机 化 数据 生成 并 修剪 
每 个 规则 Ri 的 两 个 变 体 。 但 是 ， 一 个 变 体 是 由 一 个 空 规 则 生成 的 ， 而 另 一 个 变 体 是 由 贪 
禁地 向 初始 规则 添加 前 置 因素 生成 的 。 此 外 ， 这 里 使 用 的 修剪 度量 是 (TP+TN)/(P+N)， 然 
后 ， 计 算 每 个 变 体 的 最 小 可 能 DL 和 初始 规则 。 其 中 ，TP 和 TN 分 别 为 真 阳性 和 真 阴 性 的 
实例 数量 ，N=7-P， 为 添加 新 测试 之 前 满足 规则 的 负 例 数量 。 选 择 最 小 的 DL 所 在 的 变 体 
作为 最 终 在 规则 集 Ri 的 代表 。 当 检查 完 Ri} 中 的 全 部 规则 后 ， 如 果 残 差 仍然 为 正 ， 则 再 次 
使 用 构建 阶段 ， 根 据 正 残 差 产生 更 多 规则 。 

(3) 删除 规则 集中 会 增加 规则 所 在 的 整个 规则 集 的 DL 的 规则 ， 并 添加 结果 规则 集 到 
RS。 

ENDDO 

需要 注意 的 是 ， 在 原来 的 ripper 程序 中 似乎 有 两 个 错误 ， 会 稍微 影响 到 规则 集 的 大 小 
和 精度 。 本 实现 避免 了 这 些 错误 ， 因 此 和 Cohen 的 原始 实现 有 少许 不 同 。 即 使 修复 这 些 错 
误 ， 由 于 在 ripper 中 没有 定义 相同 频率 的 类 别 ， 似 乎 在 本 实现 与 原来 的 ripper 之 间 还 是 存 
在 一 些 细微 的 差异 ， 尤 其 是 对 于 UCI 仓库 中 的 听力 学 数据 ， 其 中 有 几 个 实例 有 很 多 类 别 。 

又 及 ， 使 用 人 工 数据 “ab+bcd+defg” 和 UCI 数据 集 ，Weka 实现 者 比较 了 本 实现 与 原 
ripper 实现 的 准确 度 、 规 则 集 大 小 以 及 运行 时 间 。 在 所 有 这 些 方 面 ， 本 实现 似乎 都 与 原 
ripper 实现 可 比 。 然 而 ，Weka 实现 者 没有 考虑 在 本 实现 中 对 内 存 消耗 进行 优化 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e。 batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
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一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
checkErrorRate( 检 查 错误 率 ): 是 否 在 停止 判 据 中 包括 检查 错误 率 大 于 等 于 1/2。 
默认 为 True。 

folds( 折 ): 确定 用 于 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生成 规则 。 默 认 值 
为 3。 

minNo( 最 小 权重 ): 在 一 条 规则 中 的 实例 的 最 小 总 权重 。 默 认 值 为 2.0。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

optimizations( 优 化 次 数 ): 运行 优化 的 次 数 。 默 认 值 为 2。 

seed( 种 子 ): 用 于 随机 化 数据 的 种 子 。 默 认 值 为 1。 

usePruning( 使 用 修剪 ): 是 否 进行 修剪 。 默 认 值 为 True。 


3) MSRules 

对 于 回归 问题 使 用 分 治 策略 生成 决策 表 。 在 每 一 次 迭代 中 ， 使 用 M5 构建 模型 树 ， 并 
将 “最 好 ”叶子 构成 规则 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
buildRegressionTree( 生 成 回归 树 ): 是 否 生成 回归 树 /规则 ， 而 不 是 模型 树 /规则 。 
默认 为 False。 

minNumInstances( 最 小 实例 数目 ): 在 一 个 叶 节点 下 允许 实例 的 最 小 数目 。 默 认 值 
为 4.0。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

generateRules?( 产 生 规则 ): 是 否 产生 规则 (决策 表 )， 而 不 是 树 。 
unpruned( 不 修剪 ): 是 否 产生 不 修剪 的 树 / 规 则 。 默 认为 False。 
useUnsmoothed( 使 用 非 平滑 ): 是 否 使 用 非 平滑 预测 。 默 认为 False。 


4) OneR 

用 于 构建 和 使 用 1R 分 类 器 的 类 。 换 句 话 说 ， 使 用 最 小 误差 的 属性 进行 预测 ， 将 数值 
型 属性 离散 化 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
minBucketSize( 最 小 桶 大 小 ): 用 于 数值 属性 离散 化 的 最 小 桶 的 大 小 。 默 认 值 为 6。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 


@ 在 Weka API 中 有 该 条 ， 但 在 通用 对 象 编辑 器 对 话 框 中 没有 ， 估 计 有 BUG。 
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5) PART 

使 用 分 治 方法 产生 PART 决策 表 的 类 。 在 每 次 迭代 中 构建 局 部 C4.5 决策 树 ， 并 将 
“最 好 ”叶子 构成 规则 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
binarySplits( 二 元 分 裂 ): 构建 局 部 树 时 是 否 使 用 二 元 分 裂 标 称 型 属性 。 默 认为 
False。 

confidenceFactor( 置 信 系 数 ): 用 于 修剪 的 置信 系数 ( 较 小 的 数值 会 导致 较 多 的 修 
剪 )。 默 认 值 为 0.25。 

doNotMakeSplitPointActualValue( 不 让 分 割 点 成 实际 值 ): 如 果 设 置 为 True， 分 割 
点 不 重 定位 到 一 个 实际 数据 值 。 对 于 含 数 值 型 属性 的 大 型 数据 集 来 说 ， 可 以 大 幅 
提速 。 默 认为 False。 

minNumObj( 最 少 对 象 数目 ): 每 条 规则 最 小 的 实例 数目 。 默 认 值 为 2。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 确定 用 于 减少 误差 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生 
成 规则 。 默 认 值 为 3。 

TeducedErrorPruning( 减 少 误差 修剪 ): 是 否 使 用 减少 误差 修剪 代替 C4.5 修 前 。 默 
认为 False。 

seed( 种 子 ): 使 用 减少 误差 修剪 时 ， 用 于 随机 化 数据 的 种 子 。 默 认 值 为 1。 
unpruned( 不 修 前 ): 是 否 进行 修剪 。 默 认为 False。 

useMDLcorrection( 使 用 MDL 校正 ): 是 否 在 查找 数值 型 属性 分 裂 时 使 用 MDL 校 
正 。 默 认为 True。 


6) ZeroR 

用 于 构建 和 使 用 一 个 0-R 分 类 器 的 类 。 预 测 均值 (对 于 数值 型 类 别 ) 或 众 数 (对 于 标 称 型 
类 别 )。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 
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1) DecisionStump 


构 对 


E 和 使 用 决策 树桩 类 。 通 常 与 提升 (boosting) 算 法 配合 使 用 ， 完 成 (基于 均 方 误差 的 ) 


归 或 (基于 迷 的 ) 分 类 。 将 缺失 值 视 为 一 个 单独 的 值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
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一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 


2) HoeffdingTree 

霍 夫 丁 树 (VFDT) 是 一 种 增 量 的 决策 树 归纳 学 习 算法 ， 能 够 从 大 量 的 数据 流 中 学 习 ， 它 
假设 分 布 生成 的 样本 不 随时 间 变 化 。 霍 夫 丁 树 利用 小 样本 通常 足以 选择 一 个 最 优 分 裂 属 
性 ， 这 一 观点 在 数学 上 得 到 霍 夫 丁 边界 (Hoeffding bound) 的 支持 ， 该 边界 定量 了 观测 (在 这 
里 为 样本 ) 的 数量 ， 在 此 范围 内 以 特定 精度 (在 这 里 为 某 个 属性 的 适合 度 ) 需 要 估计 一 些 统计 


数据 。 


霍 夫 丁 树 在 理论 上 吸引 人 的 特性 在 于 ， 它 具有 其 他 增 量 决策 树 学 习 器 不 具备 的 良好 性 
能 。 使 用 霍 夫 丁 边 界 ， 在 使 用 无 限 多 样本 的 条 件 下 ， 其 输出 几乎 逐渐 逼近 非 增 量 学 习 器 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
gracePeriod( 宽 限 ): 在 分 裂 尝试 之 间 ， 一 片 叶子 应 该 观测 到 的 实例 数量 (或 实例 的 
总 权重 )。 默 认 值 为 200.0。 

hoeffdingTieThreshold( 霍 夫 丁 平局 阔 值 );， 强迫 低 于 阐 值 的 分 裂 将 打破 平局 。 默 认 
值 为 0.05。 

leafPredictionStrategy( 叶 子 预 测 策略 ): 使 用 的 叶子 预测 策略 。 可 选项 有 Naive 
Bayes adaptive( 默 认 )、Naive Bayes 和 Majority class。 
minimumFractionOfWeightInfoGain( 信 息 增益 最 小 权重 ): 信息 增益 分 裂 中 ， 至 少 
两 个 分 支 以 下 所 需 权重 的 最 小 值 。 默 认 值 为 0.01。 
naiveBayesPredictionThreshold( 朴 素 贝 叶 斯 预测 国 值 ): 该 阀 值 指定 叶子 节点 应 该 
观察 到 的 实例 数量 (权重 )， 达 到 该 值 才 允 许 使 用 朴素 贝 叶 斯 进行 预测 。 默 认 值 为 
0.0。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

printLeafModels( 打 印 叶 子 模型 ): 打印 叶子 模型 ( 仅 用 于 Naive Bayes 的 叶子 )。 默 
认为 False。 

splitConfidence( 分 裂 置信 度 ): 分 裂 决策 中 的 允许 误差 。 值 越 接近 零 ， 将 需要 越 长 
的 时 间 来 做 决策 。 默 认 值 为 1.0E-7。 

splitCriterion( 分 裂 准则 ): 使 用 的 分 裂 准则 。 可 选项 有 Info gain split( 默 认 ) 和 Gini 
split。 


3) J48 
产生 修 前 或 不 修剪 C4.5 决策 树 的 类 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
binarySplits( 二 元 分 裂 ): 构建 树 时 是 否 使 用 二 元 分 裂 标 称 型 属性 。 默 认为 False。 


collapseTree( 折 又 树 ): 无 论 删除 哪些 部 分 ， 不 应 降低 训练 误差 。 默 认为 True。 
confidenceFactor( 置 信 系 数 ): 用 于 修剪 的 置信 系数 ( 较 小 的 数值 会 导致 较 多 的 修 
剪 )。 默 认 值 为 0.25。 

doNotMakeSplitPointActualValue( 不 让 分 割 点 成 实际 值 ): 如 果 设 置 为 True， 分 割 
点 不 重 定位 到 一 个 实际 数据 值 。 对 于 含 数值 型 属性 的 大 型 数据 集 来 说 ， 可 以 大 幅 
提速 。 默 认为 False。 

minNumObj( 最 少 对 象 数目 ): 每 片 叶子 实例 的 最 小 数目 。 默 认 值 为 2。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 确定 用 于 减少 误差 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生 
成 树 。 默 认 值 为 3。 

IeducedErrorPruning( 减 少 误差 修剪 ): 是 否 使 用 减少 误差 修剪 代替 C4.5 修剪 。 默 
认为 False。 

saveInstanceData( 保 存 实 例 数 据 ): 是 否 要 为 可 视 化 保存 训练 数据 。 默 认为 False。 
seed( 种 子 ): 使 用 减少 误差 修剪 时 ， 用 于 随机 化 数据 的 种 子 。 默 认 值 为 1 。 
subtreeRaising( 子 树 提升 ): 是 否 在 修剪 时 考虑 子 树 提 升 操作 。 默 认为 True。 
unpruned( 不 修剪 ): 是 否 进行 修剪 。 默 认为 False。 

useLaplace( 使 用 Laplace): 是 否 基于 Laplace 对 平滑 的 叶子 进行 计数 。 默 认为 
False。 

useMDLcorrection( 使 用 MDL 校正 ): 是 否 在 查找 数值 型 属性 分 裂 时 使 用 MDL 校 
正 。 默 认为 True。 


4) LMT 
构建 logistic 模型 树 (Logistic Model Trees，LMT) 的 分 类 器 ， 它 是 对 树叶 使 用 logistic 回 
归 函 数 的 分 类 树 。 该 算法 可 以 处 理 二 元 类 别 和 多 元 类 别 目标 变量 、 数 值 和 标 称 值 以 及 缺 


失 值 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
e ”convertNominal( 转 换 标 称 型 属性 )， 先 将 全 部 标 称 型 属性 转换 为 二 元 属性 ， 然 后 再 
构建 树 。 这 意味 着 最 终 树 的 所 有 分 裂 都 是 二 元 的 。 默 认为 False。 
e ”doNotMakeSplitPointActualValue( 不 让 分 割 点 成 实际 值 ): 如 果 设 置 为 True， 分 割 


点 不 重 定位 到 一 个 实际 数据 值 。 对 于 含 数 值 型 属性 的 大 型 数据 集 来 说 ， 可 以 大 幅 
提速 。 默 认为 False。 

errorOnProbabilities( 概 率 误差 ): 当 交 叉 验 证 LogitBoost 迭代 次 数 时 ， 减 少 误差 的 
发 生 概率 ， 而 不 是 误 分 的 错误 。 如 果 置 位 ， 选 择 LogitBoost 人 迭代 次 数 的 根据 是 ， 
均 方 根 误差 最 小 化 ， 而 非 误 分 错误 最 小 化 。 默 认为 False。 
fastRegression( 快 速 回 归 ): 是 否 使 用 启发 式 算 法 以 避免 在 每 一 个 节点 交叉 验证 获 
取 和 迭代 运行 Logit-Boost 的 次 数 。 当 在 一 个 节点 拟 合 logistic 回归 函数 时 ，LMT 必 
须 确定 运行 的 LogitBoost 和 迭代 次 数 。 初 始 时 ， 树 中 的 每 个 节点 交叉 验证 指定 次 
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数 。 为 了 节省 时 间 ， 启 发 式 的 交叉 验证 只 运行 一 次 ， 获 取 和 迭代 最 佳 次 数 ， 然 后 在 
树 中 的 每 个 节点 都 使 用 该 次 数 进行 迭代 。 通 常 这 不 会 降低 精度 ， 反 而 能 大 大 提高 
运行 效率 。 默 认为 True。 

minNumInstances( 实 例 的 最 小 数目 ): 设置 想 要 进行 分 裂 的 节点 中 实例 的 最 小 数 
目 。 默 认 值 为 15。 

numBoostingIterations(LogitBoost 和 帮 代 次 数 ): 设置 LogitBoost 的 固定 迭代 次 数 。 
如 果 大 于 或 等 于 0， 树 中 的 每 个 地 方 都 使 用 设置 的 LogitBoost 固定 迭代 次 数 。 如 
果 小 于 0， 该 数字 用 于 交叉 验证 。 默 认 值 为 -1。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

splitOnResiduals( 基 于 残 差 分 裂 ): 基于 LogitBoost 的 残 差 设置 分 裂 准 则 。LMT 有 
两 种 可 能 的 分 裂 准则 : 默认 使 用 C4.5 的 分 裂 准则 ， 它 在 类 别 变量 上 使 用 信息 增 
益 ; 另 一 个 分 裂 准 则 是 在 拟 合 logistic 回归 函数 时 ， 试 图 提高 在 残 差 中 的 纯度 。 
分 裂 准则 的 选择 通常 不 太 影响 分 类 的 准确 度 ， 但 能 生成 不 同 的 树 。 默 认为 False。 
useAIC( 使 用 AIC): 使 用 AIC 以 确定 何 时 停止 LogitBoost 迭代 。 默 认为 False， 即 
不 使 用 AIC。 

weightTrimBeta( 权 重 裁 桨 PB 值 ): 设置 在 LogitBoost 权重 裁剪 中 使 用 的 B 值 。 只 有 带 
有 前 一 轮 和 迭代 中 权重 的 (1-B% 的 实例 ， 可 以 在 下 一 轮 和 代 中 使 用 。 设 置 为 0， 则 
不 使 用 权重 裁剪 。 默 认 值 为 0.0。 


5) M5P 

Java 类 名 为 M5Base， 实 现 产 生 M5 模型 树 和 规则 的 基本 例 程 。 
最 初 的 M5 算法 由 R. Quinlan 发 明 ，Yong Wang 做 了 改进 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
buildRegressionTree( 生 成 回归 树 ): 是 否 生 成 回归 树 / 规 则 ， 而 不 是 模型 树 / 规 则 。 
默认 为 False。 

minNumInstances( 实 例 的 最 小 数目 ): 设置 一 个 叶 节 点 中 允许 实例 的 最 小 数目 。 默 
认 值 为 4.0。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

saveInstances( 保 存 实例 ): 是 否 为 可 视 化 目的 而 保存 树 的 每 个 节点 的 实例 数据 。 默 
认为 False。 

unpruned( 不 修剪 ): 是 否 产生 不 修剪 的 树 /规则 。 默 认为 False。 
generateRules( 产 生 规 则 )?: 是 否 产生 规则 (决策 列表 )， 而 不 是 一 棵 树 。 
useUnsmoothed( 使 用 未 平滑 ): 是 否 使 用 未 平滑 预测 。 默 认为 False。 


@ 在 Weka API 中 有 该 条 ， 但 在 通用 对 象 编辑 器 对 话 框 中 没有 ， 估 计 有 BUG。 


6) RandomForest 
构建 由 随机 树 组 成 的 森林 类 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批 量 预 测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
breakTiesRandomly( 随 机 打破 平局 ): 当 几 个 属性 都 看 起 来 一 样 好 时 ， 随 机 打破 
局 。 默 认为 False。 

dontCalculateOutOfBagError( 不 计算 袋 外 误差 ): 如 果 为 True， 不 计算 袋 外 误差 。 
默认 为 False。 

maxDepth( 最 大 深度 ): 树 的 最 大 深度 ，0 为 无 限制 。 默 认 值 为 0。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numExecutionSlots( 执 行 槽 的 数量 ): 用 于 构建 系 综 的 执行 槽 (线程 ) 的 数量 。 默 认 值 
为 1。 

numFeatures( 特 性 数量 ): 用 于 随机 选择 的 属性 数量 (参见 RandomTree 的 KValue 
选项 )。 默 认 值 为 0。 

numTrees( 树 的 数量 )， 要 生成 的 树 的 数量 。 默 认 值 为 100。 

printTrees( 打 印 树 ):， 在 输出 中 打印 单 棵 树 。 默 认为 False。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 


六 


7) RandomTree 

构建 一 棵 树 的 类 ， 树 的 每 个 节点 通盘 考虑 K 个 随机 选择 的 属性 ， 不 进行 修剪 。 
numFolds 选项 用 于 决定 是 否 允许 取出 (hold-out) 部 分 数据 进行 backfitting( 后 退 拟 合 )， 以 估 
计 分 类 问题 的 类 别 概率 ， 或 回归 问题 的 目标 均值 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


KValue(K 值 ): 设置 随机 选择 的 属性 数量 。 如 果 为 0， 使 用 int(log_2(#predictors)+1)。 
默认 值 为 0。 

allowUnclassifiedInstances( 人 允许 未 分 类 实例 ): 是 否 允 许 未 分 类 实例 。 默 认为 
False。 

batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
breakTiesRandomly( 随 机 打破 平局 ): 当 几 个 属性 都 看 起 来 一 样 好 时 ， 随 机 打破 了 
局 。 默 认为 False。 

maxDepth( 最 大 深度 ): 树 的 最 大 深度 ，0 为 无 限制 。 默 认 值 为 0。 
minNum( 最 小 值 ): 在 一 片 叶 子 上 的 实例 总 权重 的 最 小 值 。 默 认 值 为 1.0。 
minVarianceProp( 最 小 方差 比例 ): 需要 出 现在 一 个 节点 中 ， 进 行 回归 树 分 裂 的 全 
部 数据 方差 的 最 小 比例 。 默 认 值 为 0.001。 

numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 确定 用 于 backfitting( 后 退 拟 合 ) 的 数据 量 。 一 折 用 于 
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backfitting， 其 余 用 于 生成 树 。 默 认 值 为 0， 即 不 使 用 backfitting。 
seed( 种 子 ): 用 于 选择 属性 的 随机 数 种 子 。 默 认 值 为 1。 


8) REPTree 
快速 决策 树 学 习 器 。 使 用 信息 增益 /方差 和 带 backfitting 的 减少 误差 修剪 ， 构 建 一 个 决 


归 树 。 该 学 习 器 只 对 数值 型 属性 值 排 序 一 次 。 缺 失 值 通过 将 相应 的 实例 分 裂 成 片 来 处 


这 与 C4.5 的 处 理 方式 一 样 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


batchSize( 批 大 小 ): 如 果 执 行 批量 预测 ， 期 望 处 理 的 实例 数量 。 实 际 可 能 提供 多 
一 些 或 少 一 些 的 实例 ， 该 参数 提供 一 个 指定 期 望 批 大 小 的 机 会 。 默 认 值 为 100。 
initialCount( 初 始 化 计数 ): 初始 化 分 类 值 的 计数 。 默 认 值 为 0.0。 
maxDepth( 最 大 深度 ): 树 深 度 的 最 大 值 (-1 为 不 限制 )。 默 认 值 为 -1。 
minNum( 最 小 数量 ): 叶子 实例 总 权重 的 最 小 值 。 默 认 值 为 2.0。 
minVarianceProp( 最 小 方差 比例 ): 需要 出 现在 一 个 节点 中 ， 进 行 回归 树 分 裂 的 全 
部 数据 方差 的 最 小 比例 。 默 认 值 为 0.001。 

noPruning( 不 修剪 ): 是 否 进行 修剪 。 默 认为 False。 
numDecimalPlaces( 小 数 点 后 的 位 数 ): 模型 中 输出 数值 的 小 数 点 后 的 位 数 。 默 认 
值 为 2。 

numFolds( 折 数 ): 确定 用 于 修剪 的 数据 量 。 一 折 用 于 修剪 ， 其 余 用 于 生成 规则 。 
默认 值 为 3。 

seed( 种 子 ): 用 于 随机 化 数据 的 种 子 。 默 认 值 为 1。 
spreadInitialCount( 传 播 初始 计数 ): 初始 计数 传播 至 全 部 值 ， 而 不 使 用 每 个 值 的 计 
数 。 默 认为 False。 


聚 类 算法 介绍 


以 下 按 英文 词典 顺序 列 出 Weka 常用 的 聚 类 算法 。 

1) Canopy 

使 用 canopy 聚 类 算法 处 理 数据 ， 仅 需要 过 一 遍 数 据 。 可 以 运行 在 批量 或 增 量 模式 下 。 
当 事 先 不 知道 每 个 数值 型 属性 的 最 小 值 /最 大 值 时 ， 增 量 模式 结果 通常 会 不 佳 。 批 量 模式 可 
使 用 启发 式 (基于 属性 的 标准 偏差 ) 来 设置 T2 距离 。T2 距离 决定 了 可 以 形成 canopies( 徐 ) 的 
数量 。 当 用 户 指 定 了 生成 外 的 特定 数目 (N)， 当 N 小 于 canopies 的 数量 (这 适用 于 批量 和 增 
量 学 习 ) 时 ， 算 法 将 返回 前 NM( 由 T2 密度 决定 ) 个 canopies; 当 N 大 于 canopies 的 数量 时 ， 
由 随机 选择 训练 实例 (这 只 能 是 批量 训练 ) 造 成 结果 的 不 同 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


dontReplaceMissingValues( 不 蔡 换 缺失 值 ): 全 局 蔡 换 缺失 值 为 均值 / 众 数 。 默 认为 
False。 

maxNumCandidateCanopiesToHoldInMemory( 内 存 中 候选 canopies 的 最 大 数量 ): 
任意 时 刻 在 内 存 中 保留 的 候选 canopies 的 最 大 数量 。T2 距离 以 及 数据 特性 决定 可 
以 有 多 少 候选 canopies， 超 员 才 定 期 修剪 和 最 终 修剪 ， 这 可 能 会 导致 过 度 消 耗 内 


存 。 本 设置 可 以 避免 大 量 候选 canopies 消耗 内 存 。 默 认 值 为 100。 
e minimumCanopyDensity( 最 小 canopy 密度 ): 基于 T2 密度 的 最 小 值 ， 低 于 该 值 
canopy 将 在 定期 修剪 时 被 修剪 。 默 认 值 为 2.0。 
e numClusters( 艇 数 ): 设置 徐 的 数量 。-1 表示 复数 由 T2 距离 决定 。 默 认 值 为 -1。 
e ”periodicPruningRate( 定 期 修剪 频率 ):， 训练 时 修剪 低 密度 canopies 的 频率 。 默 认 值 
为 10000。 
e “seed( 种 子 ): 随机 数 种 子 。 默 认 值 为 1 。 
e tl(TI): 使 用 的 Tl 距离。 值 小 于 0 时 ， 作 为 T2 距离 的 正 乘 数 。 默 认 值 为 -1.25。 
e ”t2(T2): 使 用 的 T2 距离 。 值 小 于 0， 表 明 应 该 设置 使 用 基于 属性 标准 偏差 (注意 ， 
这 只 能 工作 在 批量 模式 ) 的 启发 式 方法 。 默 认 值 为 -1.0。 
2) Cobweb 
Cobweb 和 Classit 的 聚 类 算法 的 实现 类 。 
注意 ， 本 实现 在 应 用 节点 运算 符 (合并 、 拆 分 等 ) 的 顺序 和 优先 级 方面 ， 与 Cobweb 和 
Classit 的 论文 有 稍 许 不 同 。 本 算法 总 是 比较 最 好 的 宿主 hosb， 增 加 了 新 的 叶子 ， 合 并 两 个 
最 好 的 宿主 ， 考 虑 在 何 处 放置 新 实例 时 分 裂 最 好 的 宿主 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e acuity( 敏 度 ): 为 数值 型 属性 设 定 最 低 的 标准 差 。 默认 值 为 1.0。 
e cutoff 截止 值 ): 设置 修剪 节点 的 类 别 效 用 阅 值 。 默 认 值 为 
0.0028209479177387815。 
e@ ”saveInstanceData( 保 存 实例 数据 ):， 为 可 视 化 目的 而 保存 实例 信息 。 默 认为 False。 
e@ ”seed( 种 子 ): 使 用 的 随机 数 种 子 ， 不 随机 化 则 将 该 值 设 为 -1。 默 认 值 为 和 2。 
3) EM 
简单 的 EM(Expectation Maximisation， 期 望 最 大 化 ) 类 。 
EM 为 每 个 实例 分 配 一 个 概率 分 布 ， 表 明 它 属于 每 一 个 簇 的 概率 。EM 能 用 交叉 验证 
决定 创建 多 少 个 簇 ， 或 者 指定 产生 多 少 个 簇 的 先 验 。 
进行 交叉 验证 以 确定 复 的 数量 ， 操 作 步 骤 如 下 。 
(1) 设置 筷 数 为 1。 
(2) 训练 集 随机 分 为 10 折 。 
(3) EM 运行 10 次 ， 使 用 10 折 ， 这 是 通常 的 交叉 验证 方式 。 
(4) 对 数 似 然 是 所 有 10 个 结果 的 平均 值 。 
(5) 如 果 对 数 似 然 有 所 增加 ， 簇 数 增 1， 并 跳 至 步骤 (2) 继 续 执行 。 
只 要 在 训练 集中 的 实例 数目 不 小 于 10， 折 数 固定 为 0。 否 则 ， 设 置 折 数 与 实例 数量 
相等 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
e ”displayModelInOldFormat( 旧 格式 的 显示 模型 ): 使 用 旧 格 式 的 模型 输出 。 当 敌 数 
很 多 时 ， 旧 格式 更 好 ; 当 簇 数 很 少 且 属 性 很 多 时 ， 新 格式 更 好 。 默 认为 False。 
。 ”maxIterations( 最 大 迭代 ): 最 大 迭代 次 数 。 默 认 值 为 100。 
e maximumNumberOfClusters( 艇 数 最 大 值 ): 在 交叉 验证 以 选择 最 佳 筷 数 时 ， 秘 数 的 
最 大 值 。 默 认 值 为 -1。 
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e minLogLikelihoodImprovementCV( 交 叉 验 证 对 数 似 然 改 善 最 小 值 ): 要 求 交 叉 验 证 
对 数 似 然 改 善 的 最 小 值 ， 只 有 满足 最 小 值 要 求 ， 才 会 考虑 增加 复数 以 便 发 现 最 佳 
簇 数 。 默 认 值 为 1.0E-6。 

e minLogLikelihoodImprovementIterating( 对 数 似 然 夫 代 改善 最 小 值 ): 执行 另 一 个 王 
步 和 M 步 迭 代步 又， 要 求 对 数 似 然 改 善 的 最 小 值 。 默 认 值 为 1.0E-6。 

e minStdDev( 最 小 标准 偏差 ): 设置 允许 的 最 小 标准 偏差 。 默 认 值 为 1.0E-6。 

e ”numClusters( 秘 数 ): 设置 簇 数 。 值 为 -1 表示 通过 交叉 验证 来 自动 选择 簇 数 。 默 认 
值 为 -1。 

e ”numExecutionSlots( 执 行 槽 的 数量 ): 使 用 的 执行 槽 (线程 ) 的 数量 ， 将 该 值 设置 为 可 
用 的 cpu 内 核 数量 。 默 认 值 为 1。 

e numFolds( 折 数 ): 交叉 验证 的 折 数 ， 通 过 交叉 验证 来 找到 最 佳 徐 数 。 默 认 值 为 10。 

e numKMeansRuns(KMeans 执行 次 数 ): KMeans 的 执行 次 数 。 默 认 值 为 10。 

e@ ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 100。 

4) FarthestFirst 

使 用 FarthestFirst( 最 远 优先 ) 算 法 聚 类 数据 。 

注意 : 

e@ ”FarthestFirst 是 一 种 快速 、 简 单 、 近 似 的 聚 类 器 。 

e ”仿照 SimpleKMeans 建 模 ， 是 一 个 有 用 的 初始 化 工具 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”numClusters( 秘 数 )， 设置 徐 数 。 默 认 值 为 2。 

e@ ”seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 1。 

5) FilteredClusterer 

用 于 运行 的 任意 聚 类 器 的 类 ， 其 数据 已 通过 任意 一 个 过 滤器 。 和 聚 类 器 一 样 ， 过 滤器 

只 以 训练 数据 为 基础 ， 在 处 理 测试 实例 时 过 滤器 不 改变 其 结构 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e@ clusterer( 聚 类 器 ): 要 使 用 的 基 聚 类 器 。 

e ”filter( 过 滤器 )， 要 使 用 的 过 滤器 。 

6) HierarchicalClusterer 

分 层 聚 类 的 类 。 

实现 一 些 基于 经 典 agglomerative( 即 自 底 向 上 ) 的 层次 聚 类 方法 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e distanceFunction( 距 离 函数 ): 设置 的 距离 函数 ， 该 函数 测量 两 个 个 体 实例 间 的 距 
离 ， 也 可 以 是 一 个 实例 与 依据 linkType 的 簇 质 心 之 间 的 距离 。 默 认为 欧 氏 距离 。 

e “distanceIsBranchLength( 距 离 为 枝 长 )， 如 果 设 置 为 False， 簇 之 间 的 距离 解释 为 连 
接 簇 的 节点 高 度 。 对 于 某 些 聚 类 (如 SINGLE 链 路 聚 类 ) 这 很 适当 。 但 是 ， 如 果 
linkType 为 NEIGHBOR JOINING， 距离 解释 为 枝 长 更 好 。 如 果 设置 为 True， 则 
解释 为 后 者 。 默 认为 False。 

e ”linkType( 链 接 类 型 ): 设置 用 于 测量 两 个 徐 之 间距 离 的 方法 。 选 项 如 下 。 

。 ”SINGLE( 单 个 ): 找到 单 链 路 距离 ， 又 名 最 小 链 路 ， 这 是 clusterl 中 的 任意 项 


与 cluster2 中 的 任意 项 之 间 的 最 短 距 离 。 

4 COMPLETE( 完 整 ): 找到 完整 的 链 路 距离 ， 又 名 最 大 链 路 ， 这 是 clusterl 中 
的 任意 项 与 cluster2 中 的 任意 项 之 间 的 最 长 距离 。 

ADJCOMLPETE( 完 整 调整 ): 与 COMPLETE 相似 ,但 加 上 调整 ， 这 是 最 长 
的 簇 内 距离 。 

* AVERAGE( 平 均 ): 找到 两 个 簇 的 元 素 之 间 的 平均 距离 。 

。 MEAN( 平 均 ): 计算 合并 后 的 簇 ( 又 名 agglomerative 聚 类 成 组 平均 ) 的 平均 
距离 。 

* CENTROID( 质 心 ): 找到 簇 间 的 质心 距离 。 

4 WARD(WARD): 找到 因 合 并 簇 引起 变化 的 距离 。 簇 信息 由 簇 质 心 及 其 成 员 
的 平方 误差 之 和 计算 得 到 。 

人 ”NEIGHBOR JOINING( 加 入 邻居 ): 使 用 加 入 邻居 算法 。 

numClusters( 徐 数 ): 设置 徐 数 。 如 果 需 要 单一 层次 ， 设 置 为 1。 默认 值 为 2。 

printNewick( 打 印 Newick): 指示 艇 是 否 应 以 Newick 格式 打印 的 标志 ， 用 于 在 其 

他 程序 中 显示 。 然 而 ， 对 于 大 型 数据 集 来 说 ， 打 印 Newick 可 能 会 产生 大 量 文 

本 ， 如 果 不 要求 Newick 格式 ， 设 置 为 False 也 不 会 有 什么 害处 。 默 认 值 为 True。 


7) MakeDensityBasedClusterer 


返回 


散 分 布 。 


分 布 和 密度 的 聚 类 器 的 包装 类 。 在 包装 聚 类 器 生成 的 每 个 秘 内 拟 合 正 态 分 布 和 离 
与 包装 聚 类 器 一 样 ， 支 持 NumberOfClustersRequestable 界面 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


clusterer( 聚 类 器 ):， 要 包装 的 聚 类 器 。 
minStdDev( 最 小 标准 偏差 ): 设置 允许 的 最 小 标准 偏差 。 默 认 值 为 1.0E-6。 


8) SimpleKMeans 

使 用 大 均值 算法 聚 类 数据 。 可 以 使 用 默认 的 欧 氏 距离 或 曼哈顿 距离 。 如 果 使 用 曼哈顿 
距离 ， 则 把 质心 计算 为 分 量 形式 的 中 位 数 ， 而 不 是 均值 。 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 


canopyMaxNumCanopiesToHoldInMemory( 内 存 中 候选 canopy 的 最 大 数量 ): 如 果 
使 用 canopy 聚 类 初始 化 或 加 速 ， 这 是 在 训练 canopy 聚 类 时 在 内 存 中 保留 的 候选 
canopies 的 最 大 数量 。T2 距离 以 及 数据 特性 决定 可 以 有 多 少 候 选 canopies， 超 员 
才 定 期 修剪 和 最 终 修 前 。 如 果 T2 设置 过 小 ， 可 能 导致 没有 足够 的 可 用 内 存 。 默 
认 值 为 100。 

canopyMinimumCanopyDensity( 最 小 canopy 密度 ): 如 果 使 用 canopy 聚 类 初始 化 
或 加 速 ， 这 是 基于 T2 密度 的 最 小 值 ， 低 于 该 值 canopy 将 在 定期 修剪 时 被 修剪。 
默认 值 为 2.0。 

canopyPeriodicPruningRate( 定 期 修剪 频率 )， 如 果 使 用 canopy 聚 类 初始 化 或 加 速 ， 
这 是 训练 时 修剪 低 密度 canopies 的 频率 。 默 认 值 为 10000。 

canopyT1(canopyT1): 使 用 canopy 聚 类 的 Tl 距离 。 值 小 于 0 时 ， 作 为 T2 距离 的 
正 乘 数 。 默 认 值 为 -1.25。 

canopyT2(canopyT2): 使 用 canopy 聚 类 的 T2 距离 。 值 小 于 0， 表 明 应 该 设置 使 
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用 基于 属性 标准 偏差 (注意 ， 这 只 能 工作 在 批量 模式 ) 的 启发 式 方法 。 默 认 值 为 
=1.0。 

displayStdDevs( 显 示 标 准 偏差 ): 显示 数值 型 属性 的 标准 偏差 ， 并 对 标 称 型 属性 进 
行 计数 。 默 认为 False。 

distanceFunction( 距 离 函 数 ): 用 于 比较 实例 的 距离 函数 ， 默 认为 欧 氏 距离 ， 即 
WwWeka.core.EuclideanDistance。 

dontReplaceMissingValues( 不 替换 缺失 值 ): 全 局 蔡 换 缺失 值 为 均值 / 众 数 
(mean/mode)。 默 认为 False。 

fastDistanceCalc( 加 速 距 离 计 算 ): 使 用 临界 值 加 速 距 离 计 算 ， 但 也 会 抑制 徐 内 的 
误差 平方 之 和 /距离 之 和 的 计算 和 输出 。 默 认为 False。 
initializationMethod( 初 始 化 方法 ): 要 使 用 的 初始 化 方法 。 可 选项 有 Random( 默 
认 )、k-means++、Canopy 和 Farthest first。 

ImaxJterations( 最 大 迭代 ): 设置 最 大 迭代 次 数 。 默 认 值 为 500。 

numClusters( 簇 数 ): 设置 徐 数 。 默 认 值 为 2。 

numExecutionSlots( 执 行 槽 的 数量 ): 使 用 的 执行 槽 (线程 ) 的 数量 。 设 置 为 可 用 的 
cpu/ 内 核 数 量 。 默 认 值 为 1。 

preserveInstancesOrder( 保 持 实 例 顺序 ): 保持 实例 顺序 。 默 认为 False。 
reduceNumberOfDistanceCalcsViaCanopies( 通 过 canopies 减少 距离 计算 的 数量 ): 
使 用 canopy 聚 类 来 减少 k-means 距离 计算 的 数量 。 默 认为 False。 

seed( 种 子 ): 使 用 的 随机 数 种 子 。 默 认 值 为 10。 


关联 算法 介绍 


以 下 按 英 文 词典 顺序 列 出 Weka 常用 的 关联 算法 。 

1) Apriori 

Apriori 型 算法 的 实现 类 。 和 迭代 减少 最 小 支持 ， 直 到 找到 满足 给 定 最 小 置信 度 的 ， 所 需 
数量 的 规则 。 

该 算法 有 一 个 car 选项 ， 设 置 为 True 可 挖掘 类 别 关联 规则 ， 参 见 如 下 参考 文献 中 的 解 
释 : Bing Liu, Wynne Hsu, Yiming Ma. Integrating Classification and Association Rule Mining. 
In: Fourth International Conference on Knowledge Discovery and Data Mining, 1998: 80-86. 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


car( 类 别 关联 规则 ): 如果 设置 为 True， 则 采用 类 别 关 联 规则 挖掘 ， 而 不 是 普通 的 
关联 规则 挖掘 。 默 认为 False。 

classIndex( 类 别 索引 ): 类 别 属性 的 索引 。 如 果 设 置 为 -1， 最 后 一 个 属性 作为 类 别 
属性 。 默 认 值 为 -1。 

delta(delta): 该 因子 迭代 降低 支持 度 。 减 少 支持 度 ， 直 到 达到 最 小 支持 度 下 界 ， 
或 者 已 经 产生 了 规定 数量 的 规则 。 默 认 值 为 0.05。 
lowerBoundMinSupport( 最 小 支持 度 下 界 ): 最 小 支持 度 的 下 界 。 默 认 值 为 0.1。 
metricType( 度 量 类 型 ): 设置 对 规则 排序 的 度量 类 型 。 可 选项 有 Confidence( 默 


认 )、Lift、Leverage 和 Conviction。 置 信 度 (Confidence) 是 能 为 结果 (consequence) 
覆盖 的 同时 也 能 为 前 提 (premise) 覆 盖 的 样本 比例 。 类 别 关 联 规则 只 能 使 用 置信 
度 ， 不 能 使 用 其 他 度量 类 型 。 也 就 是 说 ， 如 果 设 置 car 为 True， 必 须 设置 
metricType 为 Confidence， 否 则 会 报 运行 时 错误 (For CAR-Mining metric type has 
to be confidence!)。 提 升 度 (Lift) 是 置信 度 除 以 全 部 样本 中 为 结果 覆盖 的 比例 ， 这 
是 关联 的 一 个 重要 性 度量 ， 独 立 于 支持 度 。 如 果 前 提 和 结果 相互 独立 ， 杠 杆 率 
(Leverage) 是 额外 样本 由 前 提 和 结果 覆盖 的 ， 高 于 预期 的 比例 。 样 本 总 数 显示 在 
杠杆 率 后 面 的 括号 中 。 确 信和 度 (Conviction) 是 不 满足 独立 条 件 的 另 一 种 度量 ， 其 计 
算 由 公式 P(premise)P(!consequence)/P(premise, !consequence) 给 定 。 

e ”minMetric( 最 小 度量 ): 度量 最 小 得 分 ， 只 考虑 得 分 高 于 此 值 的 规则 。 默 认 值 为 

0.9。 

numRules( 规 则 数 ):， 要 找到 的 规则 数 。 默 认 值 为 10。 

outputItemSets( 输 出 项 目 集 ): 如 果 设 置 为 True， 输 出 项 目 集 。 默 认为 False。 

IemoveAllMissingCols( 删 除 所 有 缺失 列 ): 删除 所 有 缺失 值 的 列 。 默 认为 False。 

significanceLevel( 显 著 性 水 平 ): 显著 性 水 平 ， 显 著 性 检验 ( 仅 用 于 confidence 度 

量 )。 默 认 值 为 -1.0。 

e@ treatZeroAsMissing( 缺 失 值 处 理 为 零 ): 如 果 设 置 为 Tme， 零 ( 即 标 称 型 的 第 一 个 值 ) 
按照 缺失 值 的 相同 方式 处 理 。 默 认为 False。 

e ”upperBoundMinSupport( 最 小 支持 度 上 界 ): 最 小 支持 度 上 界 。 从 该 值 开 始 和 迭代 降 
低 最 小 支持 度 。 默 认 值 为 1.0。 

e@ ”verbose( 详 细 ): 如 果 设 置 为 True， 算 法 将 在 详细 模式 下 运行 。 默 认为 False。 

2) FilteredAssociator 

用 于 运行 任意 关联 器 的 类 ， 其 数据 已 经 先 通过 一 个 任意 过 滤器 。 与 关联 器 一 样 ， 过 滤 


器 结构 完全 基于 训练 数据 ， 并 且 由 过 滤器 处 理 的 测试 实例 将 不 会 改变 其 结构 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

eassociator( 关 联 器 ): 要 使 用 的 基 关 联 器 。 

e@ classIndex( 类 别 索引 ): 类 别 属 性 的 索引 。 如 果 设 置 为 -1， 最 后 一 个 属性 作为 类 别 
属性 。 默 认 值 为 -1。 

e ”filter( 过 滤器 )， 要 使 用 的 过 滤器 。 

3) FPGrowth 

FP-Growth 算法 的 实现 类 ， 寻 找 大 的 项 集 而 不 产生 候选 集 。 和 迭代 降低 最 小 的 支持 度 ， 


直到 找到 所 需 数量 的 满足 给 定 最 小 度量 的 规则 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

edelta(delta): 该 系数 迭代 降低 支持 度 。 逐 步 减少 支持 度 直 到 达到 最 小 支持 度 下 
界 ， 或 者 已 经 产生 规定 数量 的 规则 。 默 认 值 为 0.05。 

e findAllRulesForSupportLevel( 查 找 满足 支持 度 的 全 部 规则 ): 查找 满足 最 小 支持 度 
和 最 小 度量 约束 下 界 的 全 部 规则 。 设 置 为 True， 将 禁用 迭代 减少 支持 度 的 过 程 ， 
该 过 程 用 于 查找 指定 数量 的 规则 。 默 认为 False。 

e ”lowerBoundMinSupport( 最 小 支持 度 下 界 ): 最 小 支持 度 的 下 界 ， 为 实例 数量 或 一 
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个 分 数 。 默 认 值 为 0.1。 

e ”maxNumberOfltems( 项 的 最 大 数量 ): 包括 在 频繁 项 集中 项 的 最 大 数量 。-1 表示 没 
有 限制 。 默 认 值 为 -1。 

e@ ”metricType( 度 量 类 型 ): 设置 对 规则 排序 的 度量 类 型 。 可 选项 有 Confidence( 默 
认 )、Lift、Leverage 和 Conviction。 置 信 度 (Confidence) 是 能 为 结果 (consequence) 
覆盖 的 同时 也 能 为 前 提 (premise) 覆 盖 的 样本 比例 。 类 别 关 联 规则 只 能 使 用 置信 
度 ， 不 能 使 用 其 他 度量 类 型 。 也 就 是 说 ， 如 果 设 置 car 为 True， 必 须 设置 
metricType 为 Confidence， 否 则 会 报 运行 时 错误 (For CAR-Mining metric type has 
to be confidence!)。 提 升 度 (Lift) 是 置信 度 除 以 全 部 样本 中 为 结果 覆盖 的 比例 ， 这 
是 关联 的 一 个 重要 性 度量 ， 独 立 于 支持 度 。 如 果 前 提 和 结果 相互 独立 ， 杠 杆 率 
(Leverage) 是 额外 样本 由 前 提 和 结果 覆盖 的 ， 高 于 预期 的 比例 。 样 本 总 数 显示 在 
杠杆 率 后 面 的 括号 中 。 确 信 度 (Conviction) 是 不 满足 独立 条 件 的 另 一 种 度量 ， 其 计 
算 由 公式 P(premise)P(!consequence)/P(premise, !consequence) 给 定 。 

e ”minMetric( 最 小 度量 ): 度量 最 小 得 分 ， 只 考虑 得 分 高 于 此 值 的 规则 。 默 认 值 为 
0.9。 

e numRulesToFind( 查 找 的 规则 数 ): 要 找到 的 规则 数 。 默 认 值 为 10。 

e@ ”positiveIndex( 正 索引 ): 设置 二 元 值 属 性 的 索引 ， 作 为 正 值 的 索引 。 不 影响 稀疏 数 
据 ( 在 这 种 情况 下 ， 第 一 个 索引 ( 即 非 零 值 ) 始 终 作 为 正 值 处 理 )。 对 一 元 值 属 性 也 没 
有 效果 ， 即 使 用 Weka 的 Apriori-style 格式 表示 市 场 购物 篮 数 据 ， 缺 失 值 使 用 
“? ”来 表示 缺失 该 项 。 默 认 值 为 2。 

e。 rulesMustContain( 规 则 必须 包含 ): 仅 打印 包含 这 些 项 的 规则 ， 须 提供 一 个 逗号 分 
隔 的 属性 名 称 列 表 。 

e@ ”transactionsMustContain( 必 须 包 含 事 务 ): 只 允许 包含 这 些 项 的 事务 (实例 ) 输 入 至 
FP-Growth， 须 提供 一 个 逗号 分 隔 的 属性 名 称 列 表 。 

e ”upperBoundMinSupport( 最 小 支持 度 上 界 ): 最 小 支持 度 上 界 ， 为 实例 数量 或 一 个 
分 数 。 从 该 值 开始 迭代 降低 最 小 支持 度 。 默 认 值 为 1.0。 

e@ ”useORForMustContainList( 必 须 包 含 列表 中 使 用 OR): 在 事务 /规则 必须 包含 的 列 
表 中 使 用 OR 替换 AND。 默 认为 False。 


选择 属性 算法 介绍 


Weka 的 选择 属性 算法 分 为 属性 评估 器 和 搜索 方法 两 类 。 

属性 评估 器 

1) CfsSubsetEval 

通过 考虑 单个 属性 的 每 个 特征 的 预测 能 力 ， 以 及 它们 之 间 的 元 余 度 ， 评 估 属 性 子 集 的 
价值 。 

首选 的 特征 子 集 是 : 与 类 别 属性 高 度 相关 ， 同 时 相互 之 间 相关 度 低 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
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e@ ”locallyPredictive( 本 地 预测 性 ): 确定 本 地 预测 性 属性 。 只 要 属性 子 集中 不 具有 更 
高 相关 性 的 属性 ， 便 迁 代 地 添加 具有 与 类 别 属性 相关 性 最 高 的 属性 。 默 认为 True。 

e missingSeparate( 缺 失 值 为 单独 值 ): 如 果 为 True， 将 缺失 值 作为 一 个 单独 的 值 。 否 
则 ， 将 缺失 值 记 为 与 出 现 频率 成 正比 的 其 他 值 。 默 认为 False。 

e ”numThreads( 线 程 数 量 ): 使 用 的 线程 数量 ， 应 该 大 于 等 于 线程 池 的 大 小 。 默 认 值 
汶 Y 

e@ ”poolSize( 池 大 小 ): 线程 池 的 大 小 ， 如 CPU 的 核 数 量 。 默 认 值 为 1。 

e preComputeCorrelationMatrix( 预 计算 相关 矩阵 ): 一 开始 就 预计 算 完整 的 相关 甜 
阵 ， 而 不 是 在 搜索 时 消极 (根据 需要 ) 计 算 相 关 性 。 使 用 这 个 办 法 与 并 行 处 理 共同 
加 速 后 向 搜索 。 默 认为 False。 

2) CorrelationAttributeEval 

通过 测量 它 与 类 别 之 间 的 Pearson( 皮 尔 森 ) 相 关 性 ， 评 估 一 个 属性 的 价值 。 

将 每 个 值 作为 一 个 指示 器 处 理 ， 从 而 将 标 称 型 属性 视 为 数值 。 通 过 加 权 平 均 ， 得 到 标 


称 型 属性 的 整体 相关 性 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
outputDetailedInfo( 输 出 详细 信息 ): 输出 标 称 型 属性 每 个 值 的 相关 性 。 默 认为 False。 
3) GainRatioAttnbuteEval 


通过 衡量 相对 于 类 别 的 增益 比 ， 评 估 一 个 属性 的 价值 。 公 式 如 下 : 
GainR(Class, Attribute) = (H(Class)-H(Class | Attribute))H(Attribute) 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 
missingMerge( 合 并 缺失 值 ): 如 果 为 True， 按 照 其 他 值 的 分 布 来 确定 缺失 值 ， 也 就 是 


将 缺失 值 记 为 与 出 现 频率 成 正比 的 其 他 值 。 否 则 ， 将 缺失 值 作为 一 个 单独 的 值 。 默 认为 


4) InfoGainAttributeEval 
通过 衡量 相对 于 类 别 的 信息 增益 ， 评 估 一 个 属性 的 价值 。 公 式 如 下 。 
InfoGain(Class,Attribute)=H(Class)-H(Class | Attribute) 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

e “binarizeNumericAttributes( 二 元 化 数值 型 属性 ): 将 数值 型 属性 二 元 化 ， 而 不 是 离 
散 化 。 默 认为 False。 

e ”missingMerge( 合 并 缺失 值 ): 如 果 为 True， 按 照 其 他 值 的 分 布 来 确定 缺失 值 ， 也 
就 是 将 缺失 值 记 为 与 出 现 频率 成 正比 的 其 他 值 。 否 则 ， 将 缺失 值 作为 一 个 单独 的 
值 。 默 认 值 为 True。 

5) OneRAttributeEval 

使 用 OneR 分 类 器 ， 评 估 一 个 属性 的 价值 。 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

e ”evalUsingTrainingData( 使 用 训练 数据 评估 ): 使 用 训练 数据 而 不 是 交叉 验证 来 评估 
属性 。 默 认为 False。 

e ”folds( 折 数 ): 设置 交叉 验证 的 折 数 。 默 认 值 为 10。 

。 ”minimumBucketSize( 桶 最 小 值 ): 一 个 桶 (传递 给 OneR) 中 对 象 的 最 小 数量 。 默 认 值 
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为 6。 
e@e ”seed( 种 子 ): 设置 用 于 交叉 验证 的 种 子 。 默 认 值 为 1。 
6) PrincipalComponents 
进行 数据 的 主 成 分 分 析 和 转换 。 结 合 Ranker 搜索 使 用 。 通 过 选择 足够 的 占 原始 数据 的 
方差 中 一 定 百分比 的 特征 向 量 ， 默 认为 0.95(95%)， 来 降低 维 数 。 通 过 转换 到 主 成 分 空 
间 ， 可 以 过 滤 属 性 噪声 ， 消 除 一 些 最 差 的 特征 向 量 ， 然 后 变换 回 原来 的 空间 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e “centerData( 集 中 数据 ): 集中 (而 不 是 标准 化 ) 数 据 。 由 协 方差 (而 不 是 相关 ) 和 矩阵 计算 
PCA。 默 认为 False。 

e maximumAttributeNames( 属 性 名 称 最 大 值 ): 包括 在 转化 的 属性 名 称 中 属性 的 最 大 
数量 。 默 认 值 为 5。 

e@ ”transformBackToOriginal( 转 换 回 原来 ): 通过 主 成 分 空间 进行 转换 ， 并 转换 回 原来 
的 空间 。 如 果 仅 保留 最 优 的 N 个 主 成 分 (通过 设置 varianceCovered<1)， 则 此 选项 
给 出 原来 空间 的 数据 集 ， 但 属性 噪声 更 少 。 默 认为 False。 

e varianceCovered( 方 差 覆 盖 ): 保留 足够 的 主 成 分 属性 ， 维 持 方差 比例 。 默 认 值 为 
0.95 。 

7) ReliefFAttributeEval 

通过 对 一 个 实例 重复 抽样 ， 并 考虑 最 接近 的 具有 相同 和 不 同类 别 的 实例 中 给 定 属性 的 

来 评估 一 个 属性 的 价值 。 能 处 理 离散 和 连续 的 类 别 数 据 。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”numNeighbours( 邻 居 数 ): 用 于 属性 估计 的 最 近邻 居 数 。 默 认 值 为 10。 

e ”sampleSize( 样 本 大 小 ): 要 抽样 的 实例 数 。-1 表示 将 全 部 实例 用 于 属性 估计 。 默 
认 值 为 -1。 

e “seed( 种 子 ): 抽样 实例 的 随机 种 子 。 默 认 值 为 1。 

e sigma( 西 格 玛 ): 设置 最 近邻 居 的 影响 。 用 exp 函数 控制 随 着 实例 距离 的 增加 ， 权 
重 降低 的 速度 有 多 快 。 配 合 weightByDistance 选项 使 用 。 敏 感 值 为 最 近邻 数目 的 
L/10 一 1/5。 默 认 值 为 2。 

e ”weightByDistance( 距 离 加 权 ): 根据 距离 ， 对 最 近 的 邻居 加 权 。 默 认 值 为 False。 

8) SymmetricalUncertAttributeEval 

通过 测量 类 别 的 对 称 不 确定 性 ， 评 估 一 个 属性 的 价值 。 公 式 如 下 。 

SymmU(Class, Attribute) = 2x(H(Class)-H(Class | Attribute))H(Class)+H(Attribute) 

通用 对 象 编 辑 器 中 的 选项 说 明 如 下 。 

ImissingMerge( 合 并 缺失 值 ): 如 果 为 True， 按 照 其 他 值 的 分 布 来 确定 缺失 值 ， 也 就 是 

将 缺失 值 记 为 与 出 现 频率 成 正比 的 其 他 值 。 和 否则， 将 缺失 值 作为 一 个 单独 的 值 。 默 认为 

True。 

9) WrapperSubsetEval 

通过 使 用 学 习 方 案 ， 评 估 属 性 集 。 交 叉 验 证 用 于 估计 学 习 方案 对 一 组 属性 的 准确 度 。 
通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 

e ”IRClassValue(IR 类 别 值 ): 类 别 标签 ， 或 类 别 标签 的 1-based 索引 ， 用 于 使 用 信 
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度量 (如 F-Measure 或 AUC) 评 估 子 集 。 设 置 该 系数 为 空 会 导致 使 用 类 别 频率 加 权 
平均 度量 。 

classifier( 分 类 器 ): 用 来 估计 子 集 精确 度 的 分 类 器 。 

evaluationMeasure( 评 估 度 量 ): 用 于 对 属性 组 合 的 性 能 进行 评估 的 度量 。 默 认 值 
为 : 准确 度 accuracy( 离 散 类 别 )RMSE( 数 值 类 别 )。 

folds( 折 数 ): 估计 子 集 的 准确 性 时 使 用 的 xval 折 数 。 默 认 值 为 5。 

seed( 种 子 ): 用 于 随机 产生 xval 分 裂 的 种 子 。 默 认 值 为 1。 

threshold( 闵 值 ): 如 果 标 准 偏差 的 平均 值 超 过 此 值 ， 重 复 xval。 默 认 值 为 0.01。 


搜索 方法 


1) BestFirst 

采用 带 回溯 增强 的 贪 禁 爬 山 法 ， 搜 索 属 性 子 集 空间 。 设 置 连续 的 非 改善 节点 的 数目 ， 
允许 控制 回溯 完成 的 级 别 。BestFirst 可 以 以 属性 空 集 开始 ， 并 向 前 搜索 ， 或 者 以 完整 属性 
集 开始 ， 并 向 后 搜索 ， 或 者 以 任何 一 点 开始 ， 并 向 两 个 方向 搜索 (考虑 到 所 有 可 能 的 单一 属 
性 的 添加 以 及 给 定点 的 删除 )。 

通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


direction( 方 向 ): 设置 搜索 的 方向 。 可 选项 有 Forward( 默 认 )、Backward 和 Bi- 
directional 。 

lookupCacheSize( 查 找 缓存 大 小 ): 设置 评估 子 集 的 查找 缓存 的 最 大 大 小 。 表 示 为 
在 数据 集中 的 属性 数量 的 一 个 乘 数 。 默 认 值 为 1。 

searchTermination( 搜 索 终止 ): 设置 在 结束 搜索 之 前 ， 人 允许 连续 无 改善 节点 的 数 
量 。 默 认 值 为 5。 

startSet( 搜 索 起 点 ): 设置 搜索 的 起 点 。 指 定 为 以 逗号 分 隔 的 属性 索引 列表 ， 索 引 
从 1 开始 ， 可 以 包括 范围 。 例 如 : 1.2.5-9.17。 


2) GreedyStepwise 

执行 贪 禁 向 前 或 向 后 的 属性 子 集 空间 搜索 。 可 能 以 没有 属性 或 全 部 属性 为 开始 ， 或 
者 从 任意 空间 点 开始 。 当 增加 或 删除 任意 剩余 属性 会 导致 评估 性 能 降低 时 ， 停 止 空间 搜 
索 。 通 过 从 空间 一 侧 到 另 一 侧 的 遍历 ， 并 记录 选择 属性 的 顺序 ， 也 可 以 产生 一 个 属性 排名 


列表 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


conservativeForwardSelection( 保守 前 向 选择 ): 如 果 设 置 为 Tme( 并 上 且 
SearchBackwards 为 False)， 则 只 要 性 能 不 降低 ， 将 继续 添加 属性 到 最 佳 子 集中 。 
默认 为 False。 

debuggingOutput( 调 试 输出 ): 调试 信息 输出 到 控制 台 。 默 认为 False。 
generateRanking( 生 成 排名 ): 如 果 需 要 排名 列表 ， 则 设置 为 True。 默 认为 False。 
numExecutionSlots( 执 行 槽 的 数量 ): 使 用 的 执行 槽 (线程 ) 的 数量 ， 如 CPU 的 核 数 
量 。 默 认 值 为 1。 

numToSelect( 选 择 数量 ): 指定 要 保留 的 属性 数量 ，-1 指定 保留 所 有 属性 。 使 用 此 
选项 或 者 threshold 选项 可 以 减少 属性 集 。 默 认 值 为 -1。 
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searchBackwards( 向 后 搜索 ): 向 后 搜索 而 不 是 向 前 搜索 。 默 认为 False。 
startSet( 搜 索 起 点 ): 设置 搜索 的 起 点 。 指 定 为 以 逗号 分 隔 的 属性 索引 列表 ， 索 引 
从 1 开始 ， 可 以 包括 范围 。 例 如 : 1.2.5-9.17。 

threshold( 阔 值 ): 设 定 可 以 丢弃 属性 的 阔 值 。 默 认为 不 丢弃 任何 属性 ， 与 
generateRanking 共同 使 用 。 默 认 值 为 -1.7976931348623157E308。 


3) Ranker 
使 用 单个 属性 的 评估 进行 排名 。 与 属性 评估 器 (ReliefF 、GainRatio、Entropy 等 ) 一 起 


使 用 。 


通用 对 象 编辑 器 中 的 选项 说 明 如 下 。 


generateRanking( 生 成 排序 ): 一 个 常数 选项 ， 只 能 为 True。Ranker 只 能 生成 属性 
排名 。 

numToSelect( 选 择 数量 ): 指定 保留 的 属性 。-1 指定 保留 所 有 属性 。 使 用 此 选项 或 
threshold 选项 可 以 减少 属性 集 。 默 认 值 为 -1。 

startSet( 忽 略 属性 集 ): 设置 忽略 的 属性 集 。 当 生成 排名 时 ，Ranker 将 不 计算 在 此 
列表 中 的 属性 。 指 定 为 以 逗号 分 隔 的 属性 索引 列表 ， 索 引 从 1 开始 ， 可 以 包括 范 
围 。 例 如 : 1,2,5-9,17。 

threshold( 闵 值 ): 设 定 可 以 丢弃 属性 的 阔 值 ， 默 认为 不 丢弃 任何 属性 。 使 用 此 选 
项 或 numToSelect 选项 可 以 减少 属性 集 。 默 认 值 为 -1.7976931348623157E308 。 
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